Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Отбор и оценка фактического материала
Возможно, что часть полученных при чтении научной литературы данных окажется бесполезной: очень редко они используются полностью. Поэтому необходим их тщательный отбор и оценка. Научное творчество включает значительную часть черновой работы, связанной с подбором основной и дополнительной информации, ее обобщением и представлением в форме, удобной для анализа и выводов. Факты, применяя образное сравнение, не лежат на поверхности, а скрыты подобно крупицам золота, рассеянным в громаде пустой породы. Из этого позволительно сделать вывод, что отбор научных фактов — не простое дело, не механический, а творческий процесс, требующий целеустремленной работы. Нужно отбирать не любые факты, а тольконаучные факты. Понятие «научный факт» значительно шире и многограннее, чем понятие «факт», применяемое в обыденной жизни. Когда говорят о научных фактах, то понимают их как элементы, составляющие основу научного знания, отражающие объективные свойства вещей и процессов. На основании научных фактов определяются закономерности явлений, строятся теории и выводятся законы. Научные факты характеризуются такими свойствами, как новизна, точность, объективность и достоверность.Новизна научного факта говорит о принципиально новом, неизвестном до сих пор предмете, явлении или процессе. Это не обязательно научное открытие, но это новое знание о том, чего мы до сих пор не знали. Большое познавательное значение новых научных фактов требует учета и критической оценки их действенности. В одних случаях знание новых фактов расширяет наши представления о реальной действительности; в других — обогащает наши возможности для ее изменения; в третьих — настораживает и заставляет людей быть бдительными, чтобы новые знания о природе вещей не послужиливовред человеку. Точность научного факта определяется объективными методами и характеризует совокупность наиболее существенных признаков предметов, явлений, событий, их количественных и качественных определений. При отборе фактов надо быть научнообъективным. Нельзя отбрасывать факты в сторону только потому, что их трудно объяснить или найти им практическое применение. В самом деле, сущность нового в науке не всегда отчетливо видна самому исследователю. Новые научные факты, иногда довольно крупные, из-за того, что их значение плохо раскрыто, могут долгое время оставаться в резерве науки и не использоваться на практике. Достоверность научного факта характеризует его безусловное реальное существование, подтверждаемое при построении аналогичных ситуаций. Если такого подтверждения нет, то нет и достоверности научного факта. Достоверность научных фактов в значительной степени зависит от достоверности первоисточников, от их целевого назначения и характера их информации. Очевидно, что официальное издание, публикуемое от имени государственных или общественных организаций, учреждений и ведомств, содержит материалы, точность которых не должна вызывать сомнений. Монография как научное издание, содержащее полное и всестороннее исследование какой-либо проблемы или темы; научный сборник, содержащий материалы научной конференции; научный сборник, включающий исследовательские материалы учреждений, учебных заведений или обществ по важнейшим научным и научно-техническим проблемам, — все эти издания имеют принципиальное научное значение и практическую ценность. В своей основе они безусловно принадлежат к числу достоверных источников. Практически абсолютной достоверностью обладают описания изобретений. Что касается научных статей, то здесь с позиций достоверности их следует рассматривать по видам и в зависимости от того, к каким наукам они относятся: к научно-техническим или гуманитарным. Теоретическая статья в области технических и других точных наук обычно отличается точностью доказательств с применением современных математических методов, моделирования, с привлечением данных экспериментальных исследований. В такой статье сведения достаточно обоснованны. Результаты расчетов и экспериментов, их оценочные данные, методики, условия решения задачи, а также другая информация — все это обычно носит достоверный характер. Теоретическая статья в области гуманитарных наук значительно больше, чем статья научно-техническая, насыщена рассуждениями, сравнениями, словесными доказательствами. Достоверность ее содержания находится в зависимости от достоверности используемой исходной информации. Однако здесь важное значение имеют позиция автора, его мировоззрение, в зависимости от которых статья наряду с объективными научными данными может содержать неверные трактовки, ошибочные положения, различного рода неточности. Поэтому следует разобраться в этом и верно оценить ее содержание, точно установить истинность суждений автора и дать им соответствующую оценку. В области техники, математики, естествознания часто приходится иметь дело со статьями, в которых обосновываются и излагаются результаты завершенных исследований. Наряду со сведениями, относящимися к ходу исследований, в таких статьях приводятся данные об апробации полученных результатов, об их состоявшейся или возможной реализации, об экономической или производственной эффективности и др. Подобные сведения свидетельствуют об оригинальности статьи, ее теоретической и практической значимости. Следует выделить научно-технические статьи, в которых могут содержаться результаты незаконченных научных исследований. Такие результаты считают предварительными, поэтому они должны быть подвергнуты особо тщательному анализу и оценке. Самостоятельное значение имеет информационная статья. С подобной статьей можно встретиться в любой научной области. Информационная статья обычно оперативна и актуальна, ибо она содержит сжатое, конкретное изложение каких-либо фактов, сообщение о каком-либо событии, явлении. В технических науках к информационной можно отнести статью, в которой приводятся сведения об изделиях, о технологических процессах и т.п. Подобно статьям, различной степенью достоверности обладают также доклады, прочитанные на научных конференциях, симпозиумах и т.п. Одни из них могут содержать обоснованные, доказанные, апробированные сведения, другие — включать вопросы постановочного характера, предложения и т.п. О достоверности исходной информации может свидетельствовать не только характер первоисточника, но и научный, профессиональный авторитет его автора, его принадлежность к той или иной научной школе. Во всех случаях следует отбирать только последние данные, выбирать самые авторитетные источники, точно указывать, откуда взяты материалы. При отборе фактов из литературных источников нужно подходить к ним критически. Нельзя забывать, что жизнь постоянно идет вперед, развиваются науки, техника и культура. То, что считалось абсолютно точным вчера, сегодня может оказаться неточным, а иногда и неверным. Сбор первичной научной информации, ее фиксация и хранение Работа по накоплению научных фактов по избранной теме всегда многоаспектна. Здесь и глубокое изучение опубликованных материалов, ознакомление с архивами и ведомственными данными, получение разного рода консультаций и, разумеется, анализ и обобщение собственных научных результатов. Накопление такой предварительной информации — не механический, а творческий процесс, требующий целеустремленной энергии, настойчивости и творческой страсти. Ученый похож на строителя сложного и оригинального сооружения. Бережно и любовно он собирает нужные строительные материалы, все складывается в строгом и определенном порядке. Не беда, если материалы собраны в некотором избытке, лишь бы не было в них недостатка. Совершенно не обязательно все накопленные фактические данные использовать в диссертации. При сборе первичной информации очень полезно развивать свою память. Для ее лучшего запоминания разработано много различных приемов и способов. Первое условие хорошего запоминания — это сосредоточение внимания на объекте. Если внимание сконцентрировано на характерных особенностях объекта, то запоминание их происходит почти в 10раз быстрее и надежнее, чем при рассеянном внимании. Конечно, нет необходимости держать в памяти повседневно всю ту массу информации, с которой диссертанту приходится иметь дело. Многое из такой полезной информации можно сохранить, не перегружая свою память. Техника ее сохранения сравнительно проста. Для этой цели используются: 1) алфавитный словарик фамилий, адресов, телефонов и т.п.; 2) блокнот для черновых записей разного рода; 3) еженедельник или вкладыши в записную книжку для срочных записей, облегчающих их быстрое нахождение и использование; 4) карточки, образующие картотеку; 5) полевая записная книжка для экспедиционных условий; 6) альбом для зарисовки с натуры; 7) магнитофон. Собранную первичную научную информацию следует регистрировать. Формы ее регистрации различны. Это могут быть: 1) записи самого различного характера, в том числе выпискииз протоколов опытов, заседаний кафедры (лаборатории), наблюдений в лабораторных журналах, историях болезней и т.п.; 2) оформление новой информации на специальных бланках, анкетах, статистических и других карточках, образующих в конечном результате тематическую картотеку; 3) фиксация различного рода звуковых сигналов (природных шумов, голосов животных, пения птиц и т.п.) на магнитных лентах или других видах звукозаписи; 4) регистрация научной информации методами фотографии, рентгенографии, осциллографии, прием сигналов различных датчиков и регистрация их самописцами; 5) графики, рисунки, схемы и другие графические материалы; 6) расчеты, выполненные с помощью машинной техники; 7) научные отчеты; 8) материалы консультаций и отзывы специалистов по научным результатам; 9) выписки из анализируемых документов, литературных источников (статей, книг, авторефератов, диссертаций и др.). Записи ценных мыслей, пришедших как бы неожиданно, рекомендуется делать, не откладывая. Иначе, как это часто бывает, мысли эти забываются, и воспроизвести их потом трудно. Весьма полезно всегда иметь «под рукой» бумагу и карандаш. Еще лучше, если для этой цели использовать магнитофон. Еще на ранней стадии организации научного исследования представляется необходимым выбрать наиболее приемлемую системухранения первичной документации. Это поможет сберечь в дальнейшем много времени и облегчить пользование такого рода материалами. Выписки и другие подобного рода материалы обычно хранят в обычных канцелярских папках или конвертах большого формата, а библиографические карточки — в деревянных или картонных ящиках. Тематические разделы такого «личного архива» индивидуально различны. Вот один из таких вариантов: 1) выписки из литературных и ведомственных источников по теме и списки литературы; 2) ксерокопии опубликованных статей, тезисов, рефератов, научных докладов и сообщений; 3) деловая переписка по отдельным вопросам темы; 4) записи результатов экспериментальных и других исследований; 5) иллюстрации (технические рисунки, фотографии, чертежи, схемы, эскизы и т.п.); 6) первые варианты обобщений научных материалов (черновые рукописи, сводные таблицы расчетов, выводы, предложения), а также отзывы по ним специалистов. Отдельным папкам следует давать тематические названия и делать на них замечания справочного характера. Одновременно с регистрацией собранного материала следует вести его группировку, сопоставлять, сравнивать полученные цифровые данные и т.п. При этом особую роль играет классификация, без которой невозможны научное построение или вывод. Классификация дает возможность наиболее коротким и правильным путем войти в круг рассматриваемых вопросов. Она облегчает поиск и помогает установить ранее не замеченные связи и зависимости. Классификацию надо проводить в течение всего процесса изучения материала. Она является одной из центральных и существенных частей общей методологии любого научного исследования. Процесс сбора, фиксации, хранения и классификации первичной научной информации желательно завершить написанием целостного обзорного текста, обобщающего и систематизирующего такую информацию.
3. ЭЛЕКТРОННЫЕ ИСТОЧНИКИ Поиск информации В самых общих чертах поиск можно определить как упорядоченную последовательность действий, которые вы должны выполнить, когда сталкиваетесь с необходимостью найти интересующую вас информацию. Системный подход к этой задаче сделает ваш поиск и квалифицированным, и успешным. Кроме того, это поможет найти ответ на вопрос " Почему ничего не найдено? " и избавит от терзаний, вызванных опасениями, все ли найдено по данной теме. Определение вопроса Вопрос (question) — это то, на что вы хотите получить ответ; запрос (query) — это то, что вы вводите в компьютер, и это совершенно разные вещи. Вопрос формулируется на естественном языке, и только вы способны это сделать так как только вам известен контекст. Библиотекари могут вам помочь, но уже на этапе превращения вопроса в запрос. Выбор источника информации Уяснив для себя проблему, вы должны решить, где искать, если выбор не предопределен какими-то обстоятельствами. Иногда вы будете ограничены возможностями, имеющимися в вашей организации, или соображениями стоимости. Тем не менее, следует иметь представление о том, чего вы при этом лишаетесь. К общим заблуждениям относится стремление полагаться исключительно на базы данных из-за удобства использования или доступности, но ни одна из баз данных не является всеобъемлющей. Например, в биомедицинской библиографической базе данных MEDLINE нет книг, большинство статей попадают туда не ранее, чем через 4 месяца, и очень редки ссылки на тезисы конференций. Выбор базы данных включает такие важные этапы: • определите, к какому этапу цикла публикации относится информация нужного вам типа, и сопоставьте, что важнее: ее современность или качество; • используйте третичные источники, чтобы найти возможные источники информации; • решите, достаточно ли будет " указателей" (типа ссылок) или необходима фактическая информация (полные тексты статей), т.е. сделайте выбор между справочной и исходной базой данных; • обдумайте характерные особенности каждого возможного источника информации и определите, где поиск будет наиболее успешным — в базе данных или менее упорядоченных источниках (например, Web). При оценке источника информации приходится выбирать между его современностью (свежестью) и качеством. Качество обеспечивается при помощи рецензирования, редактирования и общественного мнения, хотя, с другой стороны, электронная почта и компьютерные средства доставляют информацию быстрее, а конференции и другие форумы доносят новости до читателей оперативнее, чем статьи. Новизна информации — очень сильный довод " за" при оценке источника, но учтите, что она становится фактически бесполезной, если для применения результатов самых современных исследований требуются недоступные вам средства. С другой стороны, источники почтенного возраста и с хорошей репутацией могут содержать общеизвестные сведения, на поиск которых не стоило тратить сил. С течением времени информация проходит определенный цикл, длительность которого определяется конкретными обстоятельствами. Например, результаты исследований могут сообщаться неформально, докладываться на конференциях, заноситься в библиографические базы данных, переоформляться и комментироваться другими авторами. На результаты, факторы времени, участников этого процесса и отношения между ними сильно влияет используемая " технология". Например, авторы могут представлять свои работы сразу в общедоступные базы данных и обнародовать их через Internet без задержек, характерных для традиционных форм публикации. Результативность поиска зависит от понимания этого цикла: к какой стадии обратиться, какие инструменты имеются для поиска на данной стадии и в чем ограниченность выбранного подхода. Например, обратившись в базу данных типа MEDLINE, вы должны понимать, что найдете информацию, которая появилась в литературе по крайней мере несколько месяцев назад, но не найдете тезисов последних конференций. Рассмотрим, какие источники можно найти на каждой стадии цикла публикации. Текущие источники Источники, которые содержат информацию о самых ранних этапах работы, когда она только началась или находится и стадии подготовки. Первичные источники Как правило, это источники, печатные или электронные, вкоторых результаты работы впервые представляются в формальном виде. Вторичные источники Источники, в которых первичную информацию каталогизируют, упорядочивают, переоформляют, представляют в сжатом виде или по-другому " повышают ее ценность". Эти источники делают более удобным поиск и оценку первичной информации. Третичные источники Источники, которые каталогизируют, упорядочивают и дают рекомендации по работе с вторичной (иногда и с первичной) информацией. Они необходимы, так как сейчас появились тысячи справочных и исходных (документальных) баз данных. Третичный источник поможет вам выяснить, существует ли где-нибудь база данных, в которой есть тезисы последней конференции по вашей тематике. При поиске информации в Internet, безусловно, чаще всего вы будете пользоваться базами данных, поэтому задержимся на некоторых важных моментах. База данных — это набор записей, состоящих из нескольких полей, который является поэтому идеальной структурой для каталога неструктурированных источников информации. Если вы решили пользоваться определенной справочной базой данных, вам необходимо знать ее организацию. Кстати, WWW в целом не може1 считаться базой данных по ряду признаков, например, ее записи (Web-страницы) отличаются по структуре, а Web-узлы — по качеству и возрасту информации. К важным характеристикам справочных баз данных относятся: • Охватываемая сфера: тематика, типы источников, насколько полно представлен каждый источник, охватываемый период времени. • Структура и содержание записи, возможность обращения к отдельным полям: из каких полей состоит запись, как они организованы, по каким из них можно проводить поиск. • Размер: сколько записей в базе данных, средний размер одной записи. • Современность и обновление информации: сколько времени проходит между публикацией статьи и появлением соответствующей записи в базе данных, как часто добавляются новые записи в базу данных. • Качество: кто несет ответственность за базу данных и какой контроль ее качества предусмотрен. • Способы поиска: поиск при помощи произвольного текста или при помощи упорядоченной индексирующей системы (управляемый словарь). • Рекомендации по методике поиска, документация, оперативная справка: обычно обеспечивается в печатном или электронном виде изготовителем или поставщиком. • Стоимость: в зависимости от условий доступа. Базы данных могут также различаться по характеру информации в них: содержат ли они " указатели" на другую информацию (справочная информация) или фактически саму информацию (исходные данные). Существует, например, разница между MEDLINE и базой данных полных текстов статей, указанных в MEDLINE, которая находится в стадии развития. При этом базы данных обоих типов могут содержать информацию, находящуюся на разных стадиях цикла публикации. Например, данные в ERRIC помещают сами исследователи, что делает эту базу данных первичным источником. Содержимое же другой базы данных — Current Contents — формируется сотрудниками Института научной информации (Institute for Scientific Information, USA), которые извлекают его из журналов, и поэтому Current Contents — вторичный источник. Справочные базы данных — это упорядоченные наборы " указателей". Обычно справочная база данных является лишь первым этапом поиска. Например, часто найдя в ТЕСН (библиографической базе данных по технике и прикладным наукам, включая аэрокосмические исследования, автоматику, компьютерные науки, электротехнику, энергетику, телекоммуникации, оптику) рефераты нужных статей, вы понимаете, что необходимо отыскать и прочитать сами статьи, хотя иногда бывает достаточно и рефератов. Исходные базы данных — это упорядоченное собрание самих данных или источников информации. Журнальный фонд библиотеки можно рассматривать как исходную базу данных в печатной форме, а ее электронным аналогом была бы база данных полных текстов статей. Примечание: Сейчас базы данных этого типа уже не редкость. Например, в online-коллекции фирмы Ovid Technologies (http: //www.ovid.com) имеется 300 журналов, причем при поиске возможен переход между библиографическими и полнотекстовыми базами данных, а также выбор и изменение масштаба отдельных графических элементов. Отметим сразу, что многие из функциональных возможностей баз данных, упоминаемых ниже, предложены этой фирмой. Другой крупный разработчик электронных баз данных— UMI (http: //www.umi.com) — предлагает online-библиотеку ProQuestDi-rect, в которой 120 журналов, причем самая ранняя информация датируется 1987 г. Пользователь может указать, в какой форме должен будет представлен результат: библиографическая ссылка, реферат, полный текст, полный текст с графикой, отсканированные изображения страниц статьи. Формулировка запроса Определив свой вопрос и выбрав ресурсы для поиска, вы должны сформулировать запрос, т.е. выразить вопрос на языке, понятном машине. Для этого следует: • разбить вопрос на понятия, которые будут искаться отдельно, а затем объединить их соответствующими логическими операторами (AND, OR, NOT), если в системе поиска предусмотрены булевы операции; • решить, насколько широко проводить поиск: сделать ли акцент на полноту отклика, т.е. найти по данной теме, часто получая при этом много ненужной информации, или на точность, т.е. быстро найти очень ограниченную конкретную информацию по теме, теряя некоторые относящиеся к ней важные сведения; заметьте, это будут совершенно разные запросы; • учесть все варианты написания слов и синонимы, если вы ищете при помощи произвольного текста; • выбрать соответствующую тематическую рубрику, если вы пользуетесь управляемым словарем; это эффективнее ключевых слов; • решить, как вы бы ограничили поиск определенными полями базы данных или выполнили уточняющие и другие специальные функции. Сейчас поисковые системы предлагают помощь при решении этих задач. Например, в MEDLINE " отображение" вводимого понятия помогает выбрать соответствующую тематическую рубрику. Выполнение поиска При поиске чаще всего применяют первый из описанных ниже методов в силу его простоты. Кроме того, далеко не во всех базах данных реализован управляемый словарь, хотя даже при его наличии пользователям нужно некоторое время, чтобы убедиться в его несомненных преимуществах и пользоваться им наряду с привычными ключевыми словами. Поиск произвольного текста При таком подходе вы ищете слова, которые были употреблены, например, i заголовках статей и рефератах, перебирая все варианты написания и синонимы, Очевидно, что вы вряд ли будете уверены, что нашли все возможное, так как автор мог использовать редкий и специфический термин. В некоторых системах поиска алгоритм позволяет вводить набор слов и учитывает некоторые формы слова, например множественное число. Поиск при помощи управляемого словаря Предположим, составлен стандартный иерархический список терминов, представляющих все основные понятия некоторой отрасли науки и смежных дисциплин. Тогда, прежде чем добавить ссылку на журнальную статью в справочную базу данных, из этого списка выбираются термины, характеризующие содержание статьи, и вводятся в запись. Так организован, например, MeSH — Medical Subject Headings (указатель медицинских рубрик). В его основе лежит следующий принцип — всем статьям об одном и том же предмете присваивается одна и та же стандартная тематическая рубрика, независимо от того, какие именно слова употребил автор. В этом случае, если вам известна стандартная рубрика, гораздо легче выполнить полный поиск в ее рамках, а найти рубрику, наиболее близко соответствующую введенному вами слову или фразе, помогает функция " отображения", которая выдает вам перечень примерно подходящих рубрик, из которого вы уже сами выбираете нужную. Но в MeSH сделан еще один шаг: статьи точно индексируются по наиболее близким к их содержанию рубрикам, однако благодаря иерархичности терминов возможен очень мощный прием поиска, называемый " расширением". Когда вы пользуетесь для поиска некоторым достаточно широким понятием, то статьи, индексированные по более узкому термину, не выбираются; если же применять «расширение», то в результат будут включены не только статьи, относящиеся к подрубрикам, расположенным на один иерархический уровень ниже. В то же время вы можете искать информацию по более узкому понятию и найти именно то, что вам нужно. Два перечисленных приема, т.е. поиск произвольного текста и поиск при помощи управляемого словаря, не являются взаимоисключающими. Напротив, наиболее эффективные стратегии получаются при их комбинации. Например, можно найти довольно значительное число статей по терминам MeSH, а затем сузить результат за счет выбора части из них по ключевому слову. Базы данных и прочие источники информации доступны через многие Web-интерфейсы. Некоторые из них бесплатны, а для других необходима регистрация и оплата услуг. В предыдущих главах найдется достаточно примеров. Оценка результатов поиска Это необходимый критический этап поиска, которым часто пренебрегают.Вотнекоторые полезные критерии для оценки достаточности поиска: • просмотрите результаты своего поиска, чтобы понять, почему выбраны эти элементы и какую часть составляют нужные, т.е. был ли поиск " прицельным"; • не забывайте, что ошибки могли быть допущены на любой стадии поиска. Например: -слишком широкая или узкая формулировка запроса в начале; - выбор не лучшей базы данных для поиска; - неправильная формулировка запроса (выбор не той рубрики, ошибочное представление о выбранной рубрике, выбор многозначного ключевого слова или сокращения); - ошибки набора или неправильное применение операторов при вводе стратегии поиска; • оценка достаточности зависит от того, для каких целей будут использованы результаты поиска. Объем ссылок, необходимый для написания обзорной статьи, будет избыточным, если вам нужны всего лишь несколько хорошо отражающих вашу проблему статей; первые попытки поиска обычно менее точны, чем последующие, когда стратегия уточняется и сфера поиска сужается; • если вам уже известны некоторые из найденных ссылок, но результаты поиска отрицательны, следует предположить наличие ошибки в стратегии. Если вы нашли слишком мало или слишком много, то считайтеэто первым сигналом о неэффективности поиска. Примечание: Не делайте скоропалительных выводов, если ничего (или почти ничего) не найдено. Часто это не является свидетельством отсутствия информации. Обычно доказать отрицательный результат (т.е. отсутствие литературы по этой теме) непросто. Прежде чем прийти к такому заключению, надо попробовать несколько других подходов. Как правило, гораздо легче идти от широкой стратегии к узкой, чем, наоборот, построить очень узкую стратегию и расширять ее, если найдено слишком мало. Если одновременно используются несколько критериев поиска, попробуйте " ослабить" или убрать некоторые. Чрезмерно обширный результат поиска — явление довольно распространенное, часто из-за ошибочного определения проблемы или формулировки запроса. Но что делать, если нашлось 400 действительно хороших ссылок по теме ваших исследований, а вам достаточно 25? Тогда попробуйте: • ограничить поиск дополнительными критериями, предусмотренными системой (для баз данных OVID Technologies это может быть язык или год публикации, тип статьи, объект исследования и др.); • прочитать названия и аннотации и выбрать самостоятельно наиболее подходящие ссылки, хотя это весьма поверхностный подход, не учитывающий полного содержания статьи. Если вы удовлетворены результатом поиска, запишите стратегию — она может быть неоднократно использована в дальнейшем для поиска более современной литературы. Говорят, что в Интернете есть все. На самом деле, конечно, это не так. Материалы для размещения в Сети готовят живые люди, и потому там можно найти лишь то, что они сочли нужным (в смысле полезным, или выгодным для себя) опубликовать. Впрочем, река питается ручьями, и благодаря их творчеству сегодня в Интернете уже образовалось около двух миллиардов Web-страниц. В результате каталогизация имеющихся в Сети ресурсов стала серьезной проблемой. Несмотря на то, что ею занимаются тысячи организаций, проблема не только не приближается к разрешению, но и становится острее. Процент каталогизированных (или индексированных) ресурсов неуклонно падает. В последние два года это падение стало катастрофическим.. Вывод простой: пространство Web быстрее наполняется, чем систематизируется. К сожалению, у нас нет оснований предполагать, что в ближайшее время что-нибудь может измениться к лучшему. В итоге поиск информации в World Wide Web можно считать самой трудной задачей в Интернете. Если вы подключились к Сети с серьезными намерениями, не пожалейте времени для решения этой задачи. Поисковые системы Интернета Поисковые каталоги Взгляните на эту книгу. Она начинается с Содержания и заканчивается Алфавитным указателем. Несмотря на то, что они расположены в разных местах книги и выглядят совершенно по-разному, задача у них одна: помочь найти в книге именно тот раздел, который в данный момент нужен. Содержание — это пример каталогизации. Читатель выбирает тему, которая ему интересна, и по ней находит номер страницы, где эта тема раскрывается. Алфавитный указатель — пример индексации (по-английски, index — это и есть указатель). Читатель находит в указателе нужный термин и получает номер страницы, на которой он встречается. В Интернете каталоги и указатели различаются технологией подготовки. Над каталогами работают люди, а указатели формируются автоматически. При каталогизации ресурса опытный редактор внимательно просматривает его, определяет, к какой области знаний относится данный ресурс, устанавливает его категорию в этой отрасли и вносит ресурс в каталог. Самый крупный каталог Интернета — Yahoo (www.yahoo.com). В нем работают более 150 квалифицированных редакторов. Это большая организация, но и ее усилий хватает лишь на то, чтобы поддерживать каталог на уровне примерно 1 миллиона ресурсов. Дальнейшее расширение сдерживается необходимостью поддерживать уровень актуальности. Сегодня редакторы Yahoo! заняты не столько наполнением каталога новыми ресурсами, сколько проверкой актуальности ресурсов, каталогизированных ранее. В российской части.Интернета тоже есть несколько каталогов. В недавнем прошлом лучшим считался каталог @Rus (www.atrus.ru), но в последний год он заметно коммерциализировался, поменял направленность, и сейчас представляет не столько каталог, сколько группу тематических Web-порталов, собранных под одним доменным именем и посвященных обществу, музыке, спорту, здоровью и т. д. Лишь в категории «Интернет» @Rus продолжает оставаться полноценным каталогом с базой данных среднего размера (порядка 10 тыс. классифицированных ссылок). Ведущим же каталогом России в настоящее время стал ресурс «List.Ru» (www.list.ru). Его активы — примерно 100 тыс. ссылок, классифицированных по 18 категориям (Автомобили, Вокруг света, Отдых, Образование и наука и т. д.). С большим отставанием за ним следуют еще два каталога: « Созвездие Интернет» (www.stars.ru) и «Russia on the Net» (www.ru). Их активы примерно равнозначны и составляют 35-40 тыс. ссылок, но активы «Созвездия» выглядят более актуальными. Поисковые указатели Поисковые указатели — это автоматизированные системы. Они способны функционировать без участия человека, и потому их знание о подлинных ресурсах Сети намного (на несколько порядков) больше. Количество проиндексированных Web-страниц может измеряться сотнями миллионов. Работа поискового указателя происходит в три этапа, из которых два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает информацию из World Wide Web. Для этого используют специальные программы, аналогичные броузерам. Они способны скопировать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гиперссылки, которые на ней имеются, перейти по указанным в них адресам, скопировать те ресурсы, которые найдены там, снова разыскать имеющиеся в них гиперссылки и т. д. Подобные программы называют червяками, пауками, гусеницами, краулерами, спайдерами и другими подобными именами. Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает. Многие современные поисковые системы родились из экспериментальных проектов, связанных с разработкой и внедрением автоматических программ, занимающихся мониторингом Сети. Теоретически, при удачном входе спайдер способен прочесать все Web-пространство за одно погружение, но на это надо очень много времени, а ему еще необходимо периодически возвращаться к ранее посещенным ресурсам, чтобы контролировать происходящие там изменения и выявлять «мертвые» ссылки, т. е. потерявшие актуальность. Неактуальными называют ресурсы, которые по каким-то причинам перестали существовать (или изменили местоположение), хотя гиперссылки, имеющиеся в других ресурсах, продолжают на них указывать. При использовании «мертвых» гиперссылок мы получаем сообщение от броузера о том, что ресурс не найден. После копирования разысканных Web-ресурсов на сервер поисковой системы начинается второй этап работы — индексация. В ходе индексации создаются специальные базы данных, с помощью которых можно установить, где и когда в Интернете встречалось то или иное слово. Считайте, что индексированная база данных — это своего рода словарь. Она необходима для того, чтобы поисковая система могла очень быстро отвечать на запросы пользователей. Современные системы способны выдавать ответы за доли секунды, но если не подготовить индексы заранее, то обработка одного запроса будет продолжаться часами. На третьем этапе происходит обработка запроса клиента и выдача ему результатов поиска в виде списка гиперссылок. Допустим, клиент хочет узнать, где в Интернете имеются Web-страницы, на которых упоминается известный голландский механик, оптик и математик Христиан Гюйгенс. Он вводит слово Гюйгенс в поле набора ключевых слов и нажимает кнопку Найти (Search). По своим базам указателей поисковая система в доли секунды разыскивает подходящие Web-ресурсы и формирует страницу результатов поиска, на которой рекомендации представлены в виде гиперссылок. Далее клиент может пользоваться этими ссылками для перехода к интересующим его ресурсам. Популярное:
|
Последнее изменение этой страницы: 2016-04-11; Просмотров: 1951; Нарушение авторского права страницы