Определение коэффициента полноты

⇐ ПредыдущаяСтр 6 из 8Следующая ⇒

Получение правильных оценок полноты является значительно более трудным, чем получение коэффициентов точности. Однако знание полноты нар яду со значением точности чрезвычайно важно; в то же время данные о точности и полноте, взятые в отдельности, имеют небольшую ценность. Необходимо знать, при каком значении точности работает система, когда достигнуто определенное значение полноты. Единственный «безупречный» коэффициент полноты - это коэффициент, полученный на основе изучения и оценки потребителем полного массива документов. Это иногда осуществимо в определенных экспериментальных ситуациях, в которых размер фонда не очень велик. Клевердону фактически удалось это сделать на массиве в 1400 документов при 200 запросах в последнем Крэнфилдском исследовании, давшем в результате матрицу релевантности запрос/ документ размером 1400 * 200 [2]. Однако изучение всего массива в большинстве реальных ситуаций, очевидно, неосуществимо. Поэтому необходимо найти способы получения приемлемых оценок полноты.

Метод, который был использован для определения полноты при оценке Системы дифференцированного распространения информации (ДРИ), основан на обычной случайной выборке. Он включает получение случайной выборки из остаточного массива (residual file, т.е. массива ненайденных документов). Участник эксперимента, послав сообщение о полученных документах, которые отвечают его информационным потребностям, посылает также несколько дополнительных сообщений о документах, не отвечающих его интересам, выбранных случайно из остаточного массива. Утверждается, что таким образом можно оценить количество нужных источников, не выявленных в результате несовершенства критерия смыслового соответствия документов и запросов, и определить коэффициент полноты для системы ДРИ. К сожалению, этот метод не может быть использован для сколько-нибудь крупных систем ретроспективного поиска ввиду размеров случайной выборки, которая должна быть получена из остаточного массива с целью нахождения хотя бы одного ненайденного релевантного документа. Рассмотрим, например, систему из 10000 документов, работающую с точностью приблизительно 25% и выдающую при типичном поиске около 20 документов. Другими словами, мы можем ожидать получения 5 релевантных документов в общей выдаче из 20 документов. Предположим также, что система работает с коэффициентом полноты, равным 50%. Тогда в остаточном массиве должно оставаться еще пять ненайденных релевантных документов. Однако остаточный массив содержит 9980 документов, так что наша случайная выборка должна включать 9980/5, или почти 2000 документов для того, чтобы был хоть какой-то шанс отыскать дополнительно хотя бы еще один релевантный документ. Если полнота больше 50%, величина случайной выборки должна быть пропорционально еще больше.

Другой метод оценки полноты предполагает проведение параллельного поиска в другой, обычно большей, системе. Полнота системы 1 оценивается по сравнению с характеристикой системы 2. Этот метод дает лишь сравнительное, а не истинное значение полноты.

Метод, использованный с некоторым успехом в предыдущих программах испытаний, предусматривал использование «подготовленных запросов» («prepared requests»), основанных на документах, о которых известно, что они имеются в фонде («исходные документы», «source documents»). Для применения этого метода, мы обратились снова к помощи потребителей, попросив их представить реальные запросы, которые должны были служить основой для определения показателей точности. После получения от потребителя запроса и заручившись его согласием сотрудничать в эксперименте, ему предъявляют документ, выбранный случайно из той части фонда документов, которая соответствует общему направлению его интересов. Затем потребителя просят составить запрос, для которого, по его мнению, этот исходный документ был бы ценным ответом. Поиск по этим подготовленным запросам проводится так же, как поиск по реальным запросам, и найденные источники или случайная выборка из них представляются составителю запроса для оценки его релевантности.

Таким путем определяется значение точности для подготовленных запросов. Значение полноты оценивается для всей группы подготовленных запросов как отношение найденных при поиске исходных документов к общему их количеству. Предположим, что использовано 100 подготовленных запросов, каждый из которых основан на одном-единственном исходном документе. Если в результате 70 поисков найдены соответствующие исходные документы, можно утверждать, что полнота системы для этих поисков

составляет 70% в предположении, что коэффициент полноты по отношению к любой другой группе из 100 релевантных документов также будет 70/100.

Таким образом, для подготовленных запросов мы получаем коэффициенты полноты и точности, а для реальных запросов - только коэффициенты точности. Однако при проведении экспериментальных поисков в виде подпоисков на различных уровнях общности можно получить значения полноты и точности для каждого подпоиска. Таким способом можно нанести диапазон значений характеристик для подготовленных запросов на графике зависимости полноты от точности, как показано на фиг. 6, где А - точка работы системы для поиска с наивысшим уровнем общности, а Е- соответствующая точка для по иска с наименьшим уровнем общности.

Теперь можно взять значение точности для реальных поисков и нанести их на кривую полнота / точность для подготовленных запросов. Этот способ позволяет получать оценки значения полноты для реальных поисков путем экстраполяции значений полноты / точности, достигнутых для подготовленных запросов.

Использование «исходных документов» как средства установления коэффициента полноты было подвергнуто резкой критике, главным образом на основании возможности неестественно сильного сходства между заголовком исходного документа и словами основанного на этом документе запроса. Такая неестественно сильная связь может исказить результаты эксперимента в выгодную для системы сторону, так как темы, упоминаемые в заголовке, вероятнее всего, будут выбраны и при индексировании. Однако при известных мерах предосторожности исходные документы могут все же успешно использоваться в качестве средства установления полноты системы. Эти предосторожности следующие:

. Составителями подготовленных запросов должны быть те же потребители, чьи реальные запросы используются для установления коэффициента точности системы. Их просят составлять подготовленные запросы возможно более близкими по степени детализации (специфичности) и сложности к их реальным запросам.

. Потребителям должны даваться строгие инструкции не переделывать заголовки при подготовке запросов.

. Не допускается подача «обманных» запросов (например, запроса, для которого единственной релевантной частью документа является одна позиция в какой-то единственной таблице).

. Второго специалиста по данной тематике просят рассмотреть подготовленный запрос в сопоставлении с исходным документом и указать, считает ли он данный запрос «приемлемым» или нет.

Возможно, наиболее эффективным методом установления значения полноты для действующей поисковой системы является метод, использованный в Национальной медицинской библиотеке при оценке системы MEDLARS. Он предполагает нахождение для каждого экспериментального запроса ряда релевантных документов методами, совершенно не имеющим отношения к оцениваемой системе. Такими документами могут быть:

1. документы, уже известные потребителю до предъявления запроса системе;

2. дополнительные документы, полученные от авторов материалов, заранее известных потребителю;

. документы, обнаруживающие сильную связь по ссылкам с материалами, известными потребителю заранее;

. документы, найденные при поиске литературы с помощью традиционных библиотечных средств;

. документы, найденные некоторыми другими специализированными информационными центрами.

В случае если найденные документы относятся к пунктам 2, 3, 4 и 5, они являются только «возможно релевантными» по отношению к запросу. Они не признаются релевантными до тех пор, пока сам потребитель не оценит их как таковые. Эти дополнительные документы могут быть объединены для оценки релевантности со случайной выборкой, взятой из экспериментального поиска, и представлены на рассмотрение потребителю. Группа источников, признанная потребителем релевантной и найденная без обращения к системе, является группой, по которой устанавливается значение полноты для поиска. Это хорошо видно из табл. 1. В данном конкретном случае потребитель знал о четырех релевантных источниках до того, как он попросил провести поиск литературы. С помощью указателя библиографических ссылок к ним были добавлены 12 документов, сильно связанных библиографическими ссылками с четырьмя известными релевантными документами. Три дополнительных «возможно релевантных» источника были найдены с помощью традиционного библиотечного поиска в опубликованных библиографических списках. Эти 15 документов были представлены для оценки потребителю и 10 из них признаны релевантными. Теперь имеется возможная основа из 14 документов для установления значений полноты для данного запроса.

Однако требуется еще подтвердить, что все эти источники присутствуют в фонде оцениваемой системы. Предположим, что четыре документа отсутствуют, в результате чего основа для определения полноты сокращается до 10 источников. Теперь необходимо проверить наличие этих 10 источников, найденных при поиске в оцениваемой системе. Если из 10 источников были найдены 6, можно утверждать, что коэффициент полноты системы относительно данного запроса составляет 6/10 * 100 = 60% в предположении, что система будет работать при таком же уровне полноты и для любой другой группы из 10 релевантных документов.

Другой путь рассмотрения указанного метода получения оценки полноты проиллюстрирован на фиг. 7. Здесь область Х представляет весь массив MEDLARS, состоящий из 70000 источников. Для любого конкретного запроса, направленного в систему, запрашивающее лицо может, просмотрев сплошь все источники фонда. найти в нем подмножество источников Y, которые оно считает ценными с точки зрения его информационной потребности. Все остальные источники в массиве (Х - Y) не представляют ценности (т.е. нерелевантны). К сожалению, кроме полного просмотра всего фонда, нет другого надежного метода установления точного подмножества релевантных источников Y- для любого конкретного запроса. Однако можно установить некоторое подмножество первого подмножества (т.е. методом, описанным ранее, можно найти некоторую группу статей Y1которые потребитель оценит как релевантные). После этого можно получить оценку полноты на основе качества функционирования системы по отношению к этой конкретной группе релевантных источников. Так, если известно о 10 релевантных статьях в фонде и система MEDLARS находит 7 из них, но пропускает 3, говорят, что коэффициент полноты для этого поиска равен 70%. При этом предполагают, что«коэффициент успеха» («hit rate») для группы документов Y1будет приближаться к «коэффициенту успеха» для большей группы Y.

Необходимо напомнить, что значения полноты и точности являются только критериями, с помощью которых измеряется влияние определенных изменений в системе или методов функционирования системы. Но, хотя оценка полноты, полученная в результате таких испытаний, может оказаться несколько завышенной или заниженной по отношению к «истинной полноте», метод, использованный для получения оценки, остается неизменным на протяжении всей программы оценки. Так что получаемые значения этих параметров все же могут служить ценными указателями изменений качества функционирования системы в различных ситуациях.

⇐ Предыдущая 1 2 3 4 567 8 Следующая ⇒

Последнее изменение этой страницы: 2020-02-16; Просмотров: 116; Нарушение авторского права страницы