Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Технологии поиска информации



Поисковые средства и технологии, используемые для реализации информационных потребностей, определяются типом и состоянием решаемой пользователем задачи основной деятельности: соотношением его знания и незнания об исследуемом объекте. Кроме того, процесс взаимодействия пользователя с системой определяется уровнем знания пользователем содержания ресурса (полноты представления, достоверности источника и т.д.) и функциональных возможностей системы как инструмента. В целом эти факторы обычно сводятся к понятию «профессионализма» – информационного (подготовленный/неподготовленный пользователь) и предметного (профессионал/непрофессионал) «профессионализма».

Процесс поиска информации обычно носит эмпирический характер. Он представляет последовательность шагов, приводящих при посредстве системы к некоторому результату, позволяющих оценить его полноту.

Реализация поиска

Что обычно ищут в Интернете: персональные данные об индивидуумах и организациях; различные адресные данные; конкретные материалы (статьи, книги, фотографии, справочные данные, программное обеспечение и др.) в том числе место их хранения; где и сколько стоят те или иные материалы, услуги, продукты и т.п.; информационные сайты и порталы и др.

Общепринята организация поиска по начальным фрагментам слова (поиск с усечением справа), например, вместо слова библиотечный можно ввести его фрагмент библиоте*. При этом будут найдены документы, в которых содержится не только слово библиотечный, но и библиотека, библиотекарь, библиотековедение и др. В каждом случае пользователь должен представлять, что именно он хочет найти, так как в предложенном ему варианте будет найдено гораздо большее количество документов, чем при задании данного слова полностью (без усечения). В подобном случае возможно в полученном массиве информации провести уточняющий поиск и в результате получить более релевантные и пертинентные данные.

Критерии оценки поиска

Критерием результата поиска является получение пользователем списка документов, одного документа или их частей, максимально удовлетворяющего его потребностям, сформулированным в поисковом запросе. В ИПС принято формировать список полученных в результате поиска документов по их релевантности. Различают критерии смыслового и формального соответствия между поисковым предписанием и выдаваемым документом.

Полнота и точность поиска являются взаимосвязанными показателями. Увеличение одного из них ведёт к снижению другого. В современных ИПС при сбалансированном поиске их значения составляют примерно 70%. Следует учитывать ситуацию, при которой список выданных поисковой системой ссылок содержит несколько, а порой и десятки разных адресов с одним и тем же текстом. Подобные ссылки характеризуются как дубликаты. Из них при подсчёте коэффициентов учитывается только один документ.

Оценка и обработка результатов поиска

Учитывая, что идеальный результат поиска должен удовлетворять требованиям единственности, полноты и непротиворечивости, получаем, что различные виды поиска определяют различные требования к функциональным возможностям системы в части оценивания результата. Однако для случая предметного поиска доказательство полноты является тривиальным: непустой результат поиска подтверждает факт существования (или отсутствия) объекта, обладающего искомыми свойствами. При этом результат тематического поиска множественен и требует последующей систематизации – ещё одного процедурного шага для упорядочения полученного множества объектов по значениям не определённого явно основания. В свою очередь проблемный поиск предполагает уже двухуровневую систематизацию.

Интернет-поисковые системы

Для получения информации в среде Интернета создаются специальные поисковые системы. Как правило, они общедоступны и обслуживают пользователей в любой точке планеты, где имеется возможность работы с Интернетом. Непосредственно для поиска используются поисковые машины, число которых в мире исчисляется несколькими сотнями. Они ориентируются на определенные типы запросов или их сочетание (библиографический, адресный, фактографический, тематический и др.). Кроме того, бывают полнотекстовые, смешанные и другие поисковые машины.

Технология поиска (англ. Search Technology) означает совокупность правил и процедур, в результате выполнения которых пользователь получает искомый результат. При поиске в Интернете рекомендуется обращать внимание на две составляющие: полноту (ничего не потеряно) и точность (не найдено ничего лишнего). Обычно соответствие найденных материалам этим критериям называют релевантностью, т.е. соответствием ответа вопросу (запросу).

Каждая поисковая машина имеет свои алгоритмы сортировки результатов поиска. Чем ближе к началу списка, полученного в результате проведения поиска, оказывается нужный документ, тем выше релевантность и лучше работает поисковая машина.

Поисковые машины используют общие принципы работы, ориентированные на выполнение двух основных функций.

Первая функция реализуется программой-роботом, автоматически просматривающей различные серверы в Интернете. Находя новые или изменившиеся документы, она осуществляет их индексацию и передаёт на базовый компьютер поисковой машины. Робот – автоматизированный браузер, загружающий веб-страницу, изучающий её и, при необходимости, переходящий к одной из её гиперсвязей.

Они могут:

· обнаруживать связи с уже несуществующими страницами;

· устанавливать связь с наиболее популярными узлами, подсчитывая количество ссылок на них в других веб-страницах;

· регистрировать веб-страницы для оценки увеличения системы и др.

Чаще всего роботы просматривают серверы самостоятельно, находя новые внешние ссылки в уже обследованных документах.

Вторая функция заключается в обработке выявленных документов. При этом учитывается все содержание страниц (не только полный текст, но и наличие иллюстраций, аудио- и видеофайлов, Java-приложений). Индексации подвергаются все слова в документе, что дает возможность использовать поисковые системы для детального поиска по самой узкой тематике. Образуемые гигантские индексные файлы, хранящие информацию о том, какое слово, сколько раз, в каком документе и на каком сервере употребляется, составляют БД, к которой собственно и обращаются пользователи, вводя в поисковую строку сочетания ключевых слов. Выдача результатов осуществляется с помощью специальной подсистемы, производящей интеллектуальное ранжирование результатов. В своих расчетах она опирается на местоположение термина, частоту его повторения в тексте, процентное соотношение данного термина с остальным текстом на данной странице и другие параметры, характеризующие возможности конкретной поисковой машины.

Эффективный доступ к информации в Интернете обеспечивают такие зарубежные поисковые системы (машины), как Альта-Виста (AltaVista), Lycos, Yahoo, Google, OpenText, Wais, WebCrawler и др. Их адреса в Интернете: www.altavista.com; www.yahoo.com, www.gogle.com; www.opentext.com.

К отечественным поисковым машинам относятся: Апорт (Aport АО Агама), Rambler (фирма Stack Ltd.), Яндех (Yandex фирма CompTek Int), Русская машина поиска, Новый русский поиск, и др. Их адреса в Интернете: www.aport.ru; www.rambler.ru; www.yandex.ru; search.interrussia.com; www.openweb.ru соответственно и др.

Все эти поисковые машины позволяют по ключевым словам, тематическим рубрикам и даже отдельным буквам оперативно находить в сети, например, все или почти все тексты, где эти слова присутствуют. При этом пользователю сообщаются адреса сайтов, где найденные ИР постоянно присутствуют. Однако ни одна из них не имеет подавляющих преимуществ перед другими. Для проведения надёжного поиска по сложным запросам специалисты рекомендуют использовать последовательно или параллельно (одновременно) различные ИПС.

Полнотекстовая поисковая машина индексирует все слова видимого пользователю текста. Наличие морфологии дает возможность находить искомые слова во всех склонениях или спряжениях. Кроме этого, в языке HTML существуют теги, которые также могут обрабатываться поисковой машиной (заголовки, ссылки, подписи к картинкам и т.д.). Некоторые машины умеют искать словосочетания или слова на заданном расстоянии, что часто бывает важно для получения разумного результата.

Полноту и точность ответа пользователь получает в зависимости от точности сформулированного им запроса. В результате поиска ему обычно предоставляется гораздо больше информации, чем ему необходимо, часть которой может вообще не иметь отношения к сформированному запросу. Многое зависит не только от грамотно сформулированного запроса, но и от возможностей поисковых систем, которые весьма различны. При этом достаточно ярко проявляется лесной синдром (из-за леса не видно дров), заключающийся в том, что в полученных данных можно пропустить главные, необходимые сведения. Это наглядно проявляется при формировании простых запросов. Простые запросы в виде отдельных достаточно распространённых терминов приводят к извлечению тысяч (сотен тысяч) документов, абсолютное большинство которых пользователю не требуется (информационный шум).

 

 

Практическая часть

1. Создайте файл отчета в Word по образцу, приведенному в Приложении 1 и заполните его шапку.

ПРИМЕЧАНИЕ. Ваша фамилия (с инициалами) должна являться именем файла отчета.

2. Запустите программу Internet Explorer в Windows.

Таким образом, у Вас одновременно должны быть запущены три программы (три окна) – эта методичка, редактор с отчётом и браузер для поиска информации по теме лабораторной работы.

3. Найдите и зафиксируйте в отчёте названия и адреса трёх русскоязычных поисковых систем.

4. Сформулируйте пять терминов по вашей специальности и с помощью трёх поисковых систем (п.1) найдите, как часто они встречаются в поисковых запросах каждой из этих поисковых систем.

Сравните, как на один и тот же запрос на поиск реагируют разные поисковые системы. Какая из них, по вашему мнению, эффективнее. Анализ эффективности поместите в отчёт (текст не более 0, 5 страницы).

5. Зайдите в поисковую систему Yandex или другую систему. Найдите перечень сайтов организаций по вашей специальности (архивы, таможенные посты, суды и т.д.) Проведите анализ сайта и его характеристику поместите в отчёт (текст не более 1 страницы).

6. Зайдите в поисковую систему Yandex или другую систему. Найдите сайт, посвящённый электронным библиотекам, и копию сайта зафиксируйте в отчете. Проанализируйте сайт одной конкретной библиотеки. Расположение библиотеки, объем ее фондов контактные реквизиты поместите в отчёт.

7. Зайдите в поисковую систему и найдите материал, который поможет ответить вам на следующие вопросы:

– Где и когда родился известный деятель ХХ в. (на ваш выбор)? В каком учебном заведении и на каком факультете он обучался?

– Перечислите основные этапы жизни и деятельности. Почему его имя вошло в историю?

– Найдите и сохраните в отчёте его фотографию.

Всю эту информацию (текст не более 1 страницы) поместите в отчёт.

8. Зайдите в поисковую систему. Найдите официальный сайт высшего учебного заведения одного из следующих городов: Пенза, Томск, Омск, Пермь, Владивосток, Белгород, Екатеринбург, Уфа и т.д.. Ответьте на следующие вопросы:

– Кто сегодня является ректором университета?

– Найдите страничку какого-либо факультета.

– Найдите список кафедр факультета.

– Найдите информацию для абитуриентов?

Всю эту информацию (текст не более 1 страницы) поместите в отчёт

9. Зайдите в поисковую систему.

Найдите ответ на вопрос:

–Какие ближайшие три рейса аэрофлота в Лондон, Париж и Владивосток?

– Какие ближайшие три поезда в Калининград, Петрозаводск и Владивосток?

Всю эту информацию (текст не более 1 страницы) поместите в отчёт.

 

10. Найдите в Интернете информацию о вузах, обучающих по вашей специальности в ЮИ МИИТа. Составьте список вузов и поместите в таблицу – Название вуза, город.

Всю эту информацию (текст не более 1 страницы) поместите в отчёт.

 

11. Представьте преподавателю отчет на проверку.

 

 

Контрольные вопросы:

1. Какие поисковые системы вы знаете?

3. Что такое релевантность?

4. Назовите домены первого уровня и их примерное количество.

5. Какие серверы Интернета вы знаете?

6. Что такое стратегия поиска?

7. На каких двух предположениях основано функционирование современных ИПС?

8. Как связаны полнота и точность поиска?

9. Являются ли полнота и точность поиска взаимосвязанными показателями?

10. Какова роль «роботов» в поисковых системах Интернета?


Поделиться:



Популярное:

Последнее изменение этой страницы: 2016-04-09; Просмотров: 1394; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.023 с.)
Главная | Случайная страница | Обратная связь