Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Классификационные информационно-поисковые системы



Принцип действия классификационных ИПС заключается в распределении документов информационного массива по тематическим рубрикам. Скорость поиска в таких системах обычно невелика, однако его точность максимальна. Аналогом классификационной ИПС является любой библиотечный систематический каталог.

Иерархический классификатор поисковой системы, называемый также каталогом, определяет возможные классы, к которым могут относиться документы. Во время процесса классификации документам приписываются идентификаторы соответствующих рубрик. Эти идентификаторы и составляют поисковые образы документов, которые хранятся в базе данных системы.

Стандартные библиотечные системы классификации используются для различных целей. Во-первых, они обеспечивают удобный и предсказуемый порядок размещения документов (книг, журналов и т. п.) на полках и стеллажах, а библиографической информации – в каталогах и указателях. Кроме того, они позволяют обозначить тот или иной класс документов, а затем, в зависимости от того, получает ли пользователь в результате данного поиска слишком много или слишком мало релевантных документов, расширить или сузить этот класс, или перейти к какому-либо другому классу, связанному с этим.

Пользователь ИПС классификационного типа сначала определяет, к какой предметной области относится интересующая его информация. Затем он выбирает соответствующую рубрику каталога. Двигаясь по иерархии рубрик, от самых общих до самых узких, в конце концов пользователь приходит к конечной рубрике, которая содержит описания документов нужной тематической направленности. Эти документы и являются результатом поиска.

Структура классификационной ИПС показана на рис. 3.2. В отличие от словарной поисковой системы вместо средств индексации здесь используются средства классификации. Система каталогов является основой как процесса классификации, так и процесса поиска. Функции остальных компонентов системы аналогичны функциям соответствующих компонентов словарной ИПС.

Задача интерфейса пользователя – представить в удобном для навигации виде каталог ИПС. Обычно это реализуется с помощью иерархического списка рубрик – дерева либо через ряд связанных друг с другом гипертекстовых страниц. Интерфейс пользователя также необходим для отображения списка найденных документов.

Рис. 3.2

Запрос на поиск в классификационной ИПС определяется идентификатором конечной рубрики или же последовательностью идентификаторов рубрик от верхнего до нижнего уровня. Поисковая машина в соответствии с этим запросом обращается к базе данных и формирует список результатов поиска.

Система каталогов классификационной ИПС обычно разрабатывается людьми.

Ручная разработка классификатора определяет один из главных недостатков классификационных ИПС. Различные области человеческой деятельности и знаний могут получить разную оценку своей относительной важности у разных групп разработчиков. Глубина проработки и ширина охвата того или иного раздела классификатора часто бывает разной в различных ИПС, что обуславливает трудности перехода пользователей от одной системы к другой.

Описанная проблема свойственна как глобальным, так и локальным ИПС классификационного типа. Если пользователь не имеет четкого представления об интересующей его предметной области, найти необходимые документы будет довольно трудно. Однако при этом классификатор может помочь сформулировать информационную потребность или расширить запрос синонимическими терминами.

Ручные методы составления классификаторов и распределения по ним документов занимают по сравнению с автоматическими гораздо больше времени и имеют горазда большую стоимость. Это оправдывает себя лишь в небольших локальных поисковых системах. Глобальные ИПС сети Интернет в состоянии классифицировать только крайне малую часть всех документов сети. Поэтому основное достоинство классификационных ИПС заключается в качестве предоставляемой ими информации. Просмотренные людьми и систематизированные документы позволяют достигать высокой точности поиска.

Мета поисковые системы

Любая поисковая система имеет собственный информационный массив, который состоит из множества доступных для поиска документов. Это множество документов всегда ограниченно. Локальные поисковые системы по определению работают с некоторым фиксированным объемом информационных объектов. Число документов в сети Интернет постоянно растет, однако скорость увеличения числа доступных для поиска документов всегда меньше скорости их появления в сети.

В настоящее время ни одна ИПС не может охватить все ресурсы в Интернет.

Поэтому поиск с использованием какой-либо одной ИПС часто не может полностью удовлетворить информационную потребность пользователя. В такой ситуации приходится повторять один и тот же запрос в нескольких поисковых системах. Для увеличения широты охвата и расширения возможностей поиска, а также для облегчения работы пользователей были разработаны так называемые метапоисковые системы.

Метапоисковые системы не имеют собственных баз данных поисковых образов документов, средств индексации и классификации. При поиске они используют ресурсы других поисковых систем. За счет одновременного обращения к взаимно дополняющим друг друга базам данных нескольких ИПС в метапоисковых системах достигаются максимальные значения полноты поиска.

Порядок работы с метапоисковой системой, структура которой представлена на рис. 3.3, можно упрощенно описать следующим образом.

Рис. 3.3

Пользователь в соответствии со своей информационной потребностью составляет запрос на поиск. Метапоисковая система передает этот запрос другим ИПС, которые и осуществляют поиск по своим информационным массивам. Затем результаты поиска в виде списков найденных документов от различных ИПС поступают обратно в метапоисковую систему, и в ней формируется итоговый список документов, который предлагается вниманию пользователя. Найденные документы ранжируются в порядке их следования в результатах поиска каждой из ИПС. При этом существенно повышается релевантность тех документов, которые были одновременно найдены в нескольких ИПС.

Главная проблема, связанная с реализацией данного алгоритма, заключается в том, что поисковые системы используют разные методы индексации, имеют различные информационные массивы и, как следствие, базы индексированных документов различной полноты. Поэтому запрошенная пользователем информация может быть найдена в одной системе и не найдена в другой. В этом случае можно получить несколько полностью релевантных документов от одной ИПС, которые будут перемешаны с частично релевантными документами из другой (например, в случае частичного совпадения документа и запроса).

Современные метапоисковые системы позволяют преодолеть эти трудности.

Во-первых, каждая ИПС придерживается (в течение достаточно долгого времени) собственных правил ранжирования результатов поиска, что используется метапоисковой машиной при определении релевантности документов, полученных от разных систем. На значение релевантности также влияет рейтинг ИПС, определяемый качеством поиска в ней, и общее количество документов, найденных по запросу (это также позволяет оценить полноту базы поисковых образов конкретной ИПС).

Наконец, главный метод корректного ранжирования заключается в статистическом анализе результатов поиска в различных системах. Обычно результаты поиска содержат названия (заголовки) и краткие описания (аннотации) найденных документов. Метапоисковая машина определяет частоты встречаемости терминов запроса в заголовках и аннотациях документов и присваивает каждому документу некоторый вес, используемый затем при ранжировании. Подобная обработка позволяет не только понижать ранг документов, в описании которых вообще нет ключевых слов, как потенциально нерелевантных запросу, но и находить строгое соответствие в том случае, если все ключевые слова встречаются в описании документа.

На схеме (рис. 3.3) пользователь помимо запроса к поисковой системе определяет стратегию поиска. Формирование стратегии поиска предполагает выбор пользователем типа информационных объектов, которые нужно найти с помощью ИПС (файлы, новостные сообщения, гипертекстовые документы и другие), выбор области поиска (русскоязычная часть Интернета, англоязычная часть или глобальный поиск по всей всемирной сети), а также выбор ИПС, к которым должна обращаться во время поиска метапоисковая система. В результате объединения текста запроса на ИПЯ и ряда поисковых предписаний формируется так называемый расширенный запрос, который затем ретранслируется метапоисковой машиной другим ИПС.


 


Поделиться:



Последнее изменение этой страницы: 2019-06-09; Просмотров: 458; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.018 с.)
Главная | Случайная страница | Обратная связь