Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Полнота и точность информационного поиска



Введем некоторые формальные определения. Пусть

Δ — множество документов, ПОДы которых представлены в докумен­таль­ной ИС;

π — общее количество пертинентных документов в Δ; обычно π много меньше, чем D — общее количество документов, ПОДы которых представлены в докумен­таль­ной ИС;

F — количество найденных по определенному запросу документов;

P — количество найденных пертинентных документов, P< F; P≤ π;

Полнота (recall) задается отношением

Точность (precision) информационного поиска задается отношением

Шум (noise) — это величина, дополнительная к точности:

Для широкого класса ИПС и запросов к ним имеет место (полученное по результатам мно­гочисленных экспериментов) соотношение дополнитель­нос­ти:

Таким образом, если по каким-то причинам требуется произвести более или менее ис­чер­пывающий поиск (обеспечить его высокую полноту), то придется мириться с высоким шумом (низкой точностью поиска).

Сказанное можно проиллюстрировать двумя модельными ситуациями поиска. В первой ситуации найден один-единственный пертинентный документ. В этом случае точность p=1, а шум n=0. Но и полнота r, видимо, близка к нулю, поскольку многие из присут­с­т­ву­ю­щих в ИС пертинентных документов не найдены. В качестве другой модельной ситу­а­ции будем рассматривать все множество Δ как результат поиска. Тогда, напротив, шум, как правило, велик (в этом случае точность p=π /D почти равна 0), а полнота равна 1.

Реальные ситуации документального поиска располагаются между приведенными мо­дель­ными ситуациями, давая или высокий шум, или высокую полноту поиска.

Координация терминов

Почти очевидно, что слова в документах, создаваемых людь­ми, встречаются вовсе не в слу­чайном порядке, и этот факт, видимо, можно использовать при разработке инфор­ма­ци­он­но-поисковых систем. Слова (строго говоря, лексические единицы) текста документа об­ра­зуют друг с другом устойчивые сочетания, имеющие определенное смысловое со­дер­жа­ние. Та­кие сочетания лексических единиц называют терминами. Термин обычно озна­ча­ет некоторое понятие. Одно и то же понятие может быть обозначено различными тер­минами («компьютер» ~ «электронная вычислительная машина»); в таком случае го­во­рят о синонимии терминов.

Пространственные (текстуальные) связи лекси­чес­ких еди­ниц, образующие термин, назы­ваются отношением координации. Термины, в свою очередь, также могут находиться друг с другом в отношениях координа­ции, образуя новые термины, обозначающие более общие понятия.

В процессе информационного поиска человек явно или неявно осуществляет коорди­на­цию лексических единиц и терминов оцениваемых документов. Поэтому уже в начале XX века возникла идея использовать предварительную (до поиска) координацию терминов (тогда бумажных) документов, осуществляемую обученными специалистами. Результаты такой координации — поисковые образы документов, состоящие только из терминов. В резуль­та­те в библиотеках возникли сначала предметные, а затем и систематические ката­логи. Ана­логи этих типов каталогов встречаются в Интернете и других документальных ин­форма­ци­онных системах. Такого рода документальные информационно-поисковые системы на­зываются ИПС с предкоординацией терминов (или просто ИПС с пред­ко­ор­ди­на­цией — ИПС с предкоординированными ИПЯ — предкоординированные ИПС).

Можно, однако, возложить всю работу по координации на того, кто ищет, предоставив ей/ему возможность непосредственно работать с лексическими единицами текста доку­мен­тов. Такой подход к осуществлению информационного поиска называется пост­ко­ор­ди­нацией терминов. В бумажную эру это было непросто, и далее алфавитных ав­тор­ских каталогов (в которых присутствовали только лексические единицы одного-един­с­т­венного типа — фа­ми­лии авторов документов) дело заходило редко. Однако с появ­ле­ни­ем ком­пь­ю­теров создание посткоординированных ИПС стало реальностью. Такие ИПС широко используются, например, для реализации юридических документальных ин­формационных систем и для поиска во Всемирной паутине.

Рассмотрению особенностей пред- и посткоординированных ИПС посвящены следующие лекции.


Поделиться:



Последнее изменение этой страницы: 2019-03-29; Просмотров: 274; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.009 с.)
Главная | Случайная страница | Обратная связь