Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Полнота и точность информационного поиска
Введем некоторые формальные определения. Пусть Δ — множество документов, ПОДы которых представлены в документальной ИС; π — общее количество пертинентных документов в Δ; обычно π много меньше, чем D — общее количество документов, ПОДы которых представлены в документальной ИС; F — количество найденных по определенному запросу документов; P — количество найденных пертинентных документов, P< F; P≤ π; Полнота (recall) задается отношением Точность (precision) информационного поиска задается отношением Шум (noise) — это величина, дополнительная к точности: Для широкого класса ИПС и запросов к ним имеет место (полученное по результатам многочисленных экспериментов) соотношение дополнительности: Таким образом, если по каким-то причинам требуется произвести более или менее исчерпывающий поиск (обеспечить его высокую полноту), то придется мириться с высоким шумом (низкой точностью поиска). Сказанное можно проиллюстрировать двумя модельными ситуациями поиска. В первой ситуации найден один-единственный пертинентный документ. В этом случае точность p=1, а шум n=0. Но и полнота r, видимо, близка к нулю, поскольку многие из присутствующих в ИС пертинентных документов не найдены. В качестве другой модельной ситуации будем рассматривать все множество Δ как результат поиска. Тогда, напротив, шум, как правило, велик (в этом случае точность p=π /D почти равна 0), а полнота равна 1. Реальные ситуации документального поиска располагаются между приведенными модельными ситуациями, давая или высокий шум, или высокую полноту поиска. Координация терминов Почти очевидно, что слова в документах, создаваемых людьми, встречаются вовсе не в случайном порядке, и этот факт, видимо, можно использовать при разработке информационно-поисковых систем. Слова (строго говоря, лексические единицы) текста документа образуют друг с другом устойчивые сочетания, имеющие определенное смысловое содержание. Такие сочетания лексических единиц называют терминами. Термин обычно означает некоторое понятие. Одно и то же понятие может быть обозначено различными терминами («компьютер» ~ «электронная вычислительная машина»); в таком случае говорят о синонимии терминов. Пространственные (текстуальные) связи лексических единиц, образующие термин, называются отношением координации. Термины, в свою очередь, также могут находиться друг с другом в отношениях координации, образуя новые термины, обозначающие более общие понятия. В процессе информационного поиска человек явно или неявно осуществляет координацию лексических единиц и терминов оцениваемых документов. Поэтому уже в начале XX века возникла идея использовать предварительную (до поиска) координацию терминов (тогда бумажных) документов, осуществляемую обученными специалистами. Результаты такой координации — поисковые образы документов, состоящие только из терминов. В результате в библиотеках возникли сначала предметные, а затем и систематические каталоги. Аналоги этих типов каталогов встречаются в Интернете и других документальных информационных системах. Такого рода документальные информационно-поисковые системы называются ИПС с предкоординацией терминов (или просто ИПС с предкоординацией — ИПС с предкоординированными ИПЯ — предкоординированные ИПС). Можно, однако, возложить всю работу по координации на того, кто ищет, предоставив ей/ему возможность непосредственно работать с лексическими единицами текста документов. Такой подход к осуществлению информационного поиска называется посткоординацией терминов. В бумажную эру это было непросто, и далее алфавитных авторских каталогов (в которых присутствовали только лексические единицы одного-единственного типа — фамилии авторов документов) дело заходило редко. Однако с появлением компьютеров создание посткоординированных ИПС стало реальностью. Такие ИПС широко используются, например, для реализации юридических документальных информационных систем и для поиска во Всемирной паутине. Рассмотрению особенностей пред- и посткоординированных ИПС посвящены следующие лекции. |
Последнее изменение этой страницы: 2019-03-29; Просмотров: 274; Нарушение авторского права страницы