Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Схема функционирования ИПС
Унифицированная схема функционирования ИПС в режимах обработки запроса и ввода документа в информационный фонд системы приведена на рис. 1.2 [9].
Средства реализации критерия смыслового соответствия в ИПС называются логикой поисковой системы , включающей в себя два основных элемента – базисные отношения и правила сравнения. Базисными отношениями называется смысловая связь, существующая между кодируемыми понятиями вне ИПС. Сюда входят обычные отношения между понятиями, в первую очередь отношения структуризации. Правила сравнения есть правила или алгоритм процедуры сопоставления ПОЗ и ПОД. Они называются критерием смыслового соответствия (КСС), или критерием выдачи. Понятие критерия смыслового соответствия Булева модель поиска На практике повсеместное распространение получили ИПС с логическим критерием выдачи, когда ПП строятся с использованием логических (булевых) операторов конъюнкции (& ), дизъюнкции (\/), отрицания (~). В этом случае логическое выражение запроса представляет собой набор поисковых элементов (обычно ключевых слов), объединенных логическими операторами и скобками, необходимыми для указания порядка выполнения операторов. Ключевые слова поискового предписания играют роль булевых пе ременных, принимающих значение 1 («истина»), если данное слово содержится в документе, и 0 («ложь»), когда оно там отсутствует. Документ признается релевантным запросу, если логическая формула запроса в целом получает для данного документа значение «истина», и нерелевантным, если результат вычисления логической формулы дает «ложь». Принятые в логике для обозначения конъюнкции, дизъюнкции и отрицания значки (&, \/, ~) в информационном поиске обычно заменяют на операторы AND, OR и NOT соответственно. В России чаще используются обозначения И, ИЛИ, НЕ. Однако в общем случае в каждой конкретной ИПС обозначения для булевых операторов выбираются свои, причем иногда для удобства пользователя вводится несколько значков для одного и того же оператора (например, в ИПС «Апорт» оператор конъюнкции может быть задан следующими знаками: &, пробел, AND, И, +). Использование булевых операторов обеспечивает логику сравнения документов и запросов, понятную пользователю. Поиск (вычисление истинности для элементов поискового предписания), как правило, проводится по специальным индексным (инвертированным) файлам, построенным на основе словника документального массива, и характеризуется высокой скоростью. ИПС, работающие с булевой моделью поиска, имеют ряд недостатков: 1. Обычные булевы запросы затрудняют варьирование глубины поиска с целью выдачи большего или меньшего количества документов в зависимости от требований пользователя. Для получения желаемого уровня эффективности необходимо найти правильную формулировку запроса: не слишком широкую и не слишком узкую. Оператор AND может привести к резкому сокращению числа найденных документов, а оператор OR, напротив, может чрезмерно расширить запрос и выделить нужную информацию из информационного шума будет трудно. Результат поиска также сильно зависит от того, насколько типичными для базы данных ключевых слов являются термины запроса. Поэтому для успешного применения булевой модели следует хорошо ориентироваться в предметной лексике. Для повышения результативности создаются специальные словари – тезаурусы, которые содержат информацию о связи терминов друг с другом. 2. При использовании булевой логики нельзя получить эффект от функций совпадения векторов, которые дают непрерывный спектр совпадений (полных, частичных или нулевых) между запросами поисковыми образами документов. Это обстоятельство приводит к жесткому требованию «все или ничего» на выходе. 3. Еще одним минусом является тот факт, что множество выданных документов не может быть представлено пользователю в ранжированном виде, например в порядке уменьшения сходства между документом и запросом. Документ либо полностью соответствует запросу, либо не соответствует совсем. Эта проблема может быть решена с помощью взвешенного булева поиска, при котором производится частичное ранжирование с использованием весов терминов. Результаты поиска располагаются в порядке уменьшения весов совпавших терминов. Несмотря на описанные недостатки, булева модель поиска широко применяется в современных ИПС из-за простоты ее реализации. Негативные свойства, характерные для булевого алгоритма поиска, обусловлены употреблением в запросе логических операторов, приводящих к жестким условиям поиска. Одним из решений этой проблемы является отказ от их использования и, как следствие, разработка каких-либо других алгоритмов поиска. Многие современные ИПС реализуют модели поиска информации, основанные на вычислении мер близости документов и запросов. ИПЯ, используемые в таких моделях, называются языками типа «найти похожее». В этих языках необязательно формулировать запросы с помощью булевых операторов. Для вычисления меры подобия документов и запросов существует более тридцати различных алгоритмов. На сегодняшний день используется лишь несколько из них. Мы рассмотрим четыре алгоритма: – расширенного булевого поиска, – наибольшего цитирования, – векторный алгоритм поиска, – расширенный векторный алгоритм поиска. Алгоритмы расширенного булевого поиска и наибольшего цитирования основаны на метаинформации гипертекстовых страниц. Векторный алгоритм использует статистические частотные оценки встречаемости терминов. Расширенный векторный алгоритм работает как с частотными оценками, так и с гипертекстами. Введем некоторые обозначения: – – число терминов в запросе; – – запрос, состоящий из терминов (вектор запроса); – – -й термин в запросе; – – число документов в информационном массиве; – – -й документ (поисковый образ -го документа); – – релевантность (мера близости) к запросу ; – – величина, характеризующая наличие в , определяемая по формуле . Для повышения качества поиска в этом выражении вместо 1 можно использовать вес термина в документе; – – величина, характеризующая наличие гиперссылки из в (входящей гиперссылки). =0, если гиперссылки нет, =1, если гиперссылка есть; – – величина, характеризующая наличие гиперссылки из в (исходящей гиперссылки). =0, если гиперссылки нет, =1, если гиперссылка есть. |
Последнее изменение этой страницы: 2019-06-09; Просмотров: 297; Нарушение авторского права страницы