Оценка и анализ эффективности работы информационно-поисковых систем

Оценка и анализ эффективности работы информационно-поисковых систем

Введение

Информационно-поисковые системы это системы, которые отыскивают документы или описания документов.

Информационно-поисковая система не информирует потребителя о предмете запроса в том смысле, что как-то изменяет его знания по этому предмету. Она информирует его лишь о наличии (или отсутствии) документов, имеющих отношение к его запросу, и о том, где эти документы можно найти.

Информационно-поисковая система может осуществлять поиск полных текстов документов, поиск вторичных документов (например, рефератов) или поиск названий и адресов документов, т.е. библиографических описаний. Систему, в конечном итоге выдающую потребителю полные тексты документов, правильнее было бы назвать системой поиска документов, тогда как систему, которая на запрос предоставляет только описание документов, - системой поиска ссылок. Поиск обычно включает несколько стадий. Первое выдача в поисковой системе может, например, иметь форму ссылок, среди которых потребитель производит отбор. Вслед за тем он может запросить уже полные тексты отобранных источников. В другом случае возможно следующая последовательность выдачи: а) номера документов, б) описание документов и в) полные тексты.

Информационно-поисковую систему следует отличать от системы поиска данных, в название которой отражено ее назначение-поиск данных, предоставленных в словесной или числовой форме.

Информационно-поисковая система (ИПС) представляет собой некий комплекс, охватывающий документы, запросы, формализованные описания этих документов и запросов, механизм, позволяющий сравнивать эти описания, и человека. Люди, входящие в систему, делятся не две категории: 1) информационные работники, обслуживающие систему, или операторы системы; в круг их обязанностей входит описание документов, поступающих на вход в систему (т.е. их индексирование), поддержание и обслуживание систематизированного массива описаний документов (указателя) и поиск в этом массиве; 2) потребители системы, которые направляют в систему запросы. Разумеется, операторы системы могут иногда являться одновременно и ее потребителями, обращаясь к поисковому массиву для удовлетворения собственных потребностей в информации. Точно так же потребитель системы может выступать в роли оператора, если он производит поиск в массиве без посредничества информационного работника.

Указатель (index) является, по существу, фильтром, назначение которого заключается в том, чтобы пропускать нужные документы и задерживать нежелательные. Существует множество различных видов указателей к фонду документов.

Одним из наиболее распространенных, безусловно, является авторский указатель, показывающий, какие работы определенного автора включены в фонд и где они размещены. Другие типы указателей могут быть составлены, например, по порядковым номерам документов, по организациям и учреждениям, выпустившим документы, или по языку, на котором они написаны. Однако, когда мы используем термин информационно-поисковая система, мы имеем в виду прежде всего систему, способную отыскивать документы в ответ на запросы по определенному «предмету». Поэтому основным указателем такой системы является предметный указатель, а метод описания документов для него носит название предметного индексирования.

Предметное индексирование удобно рассматривать как операцию, состоящую из двух этапов:

) анализа предметного содержания документа (т.е. определения, о чем идет речь в документе);

) перевода понятий, выявленных в результате такого понятийного анализа, на язык индексирования, термины которого (index terms) играют по отношению к предметному содержанию документа роль своего рода стенографических символов или условных обозначений.

В действительности такая схема является слишком упрощенной. Для эффективного предметного индексирования вовсе не обязательно присвоение документу условных обозначений на основе присущего ему предметного содержания. Большая эффективность может быть достигнута при описании документа в соответствии с типом потребителей, которые, по предположению, могли бы извлечь из него максимальную пользу, и в соответствии с типом вероятных запросов, для которых документ может рассматриваться как релевантный (т.е. относящийся к делу).

Целью дипломного проекта является оценка и анализ эффективности работы информационно-поисковых систем

Расчетно-теоретическая часть

Критерии эффективности ИПС

поисковый информационный индексирование

Существуют три основных аспекта оценки эффективности информационно-поисковой системы:

1. аспект потребителей системы;

2. аспект «низшего звена управления», которое включает операторов и административный аппарат, обслуживающий систему;

. аспект «высшего звена управления».

Требования потребителей

Потребителей (requesters) информационно-поисковой системы, направляющие в нее запрос, сознательно или неосознанно оценивают систему по тому, насколько хорошо она удовлетворяет их личные потребности в информации. Их интересует не то, как функционирует система, а лишь конечный результат ее работы. Имеет смысл более подробно рассмотреть требования потребителей к информационно-поисковой системе.

Полнота поиска

Потребитель, прежде всего, заинтересован в получении документов, которые способствуют удовлетворению его потребности в информации. В одних случаях для него будет достаточно единственно документа, в других - нескольких основных документов, а в определенных ситуациях потребитель стремится, получить как можно больше литературы по предмету своего запроса. Эти различия в требованиях могут быть проиллюстрированы на нескольких примерах.

Типичной ситуацией при поиске патентов является поиск с целью определения новизны некоторого устройства или материала. Все что требуется при поиске такого характера, - это найти хотя бы один документ, опровергающий новизну и, следовательно, патентоспособность заявленного предмета. Как только такой документ выявлен, дальнейший поиск может быть прекращен.

Для технической библиотеки характерны запросы, в которых содержится требование подобрать «несколько хороших статей» по определенному предмету. Эта ситуация отражает потребность научного работника или инженера войти в курс новой для него области интересов или сферы его непосредственно деятельности путем предварительного ознакомления с соответствующей литературой. Противоположным случаем является ситуация, возникающая на начальном этапе выполнения научно-исследовательской работы. Здесь обычно требуется проведение исчерпывающего поиска литературы с целью установить, где и какие исследования по близкой тематике выполнялись ранее, чтобы вести плановую работу, опираясь на уже полученные результаты. В этом случае требуется отыскать максимально возможное количество потенциально полезной литературы.

Хотя требования в трех приведенных ситуациях отличаются одно от другого, основное требование к поисковой системе остается неизменным: система должна отыскивать документы, релевантные различным предметным запросам. Способность системы отыскивать релевантные документы называется полнотой (recall).

Полнота, очевидно, является наиболее важным требованием потребителя к поисковой системе, поскольку единственная цель его обращения к системе состоит в получении одного или более документов, полезных с точки зрения его информационной потребности.

Показатель полноты ИПС может быть выражен количественно с помощью весьма простого коэффициента полноты, определяемого формулой 100 R/C, где C - общее число документов в системе, о которых известно, что они релевантны определенному запросу, а R - число этих релевантных документов, найденных в процессе поиска по данному запросу в указателе к фонду. Пусть мы определили, что по некоторому запросу, введенному в систему, имеется 10 релевантных документов, которые были заиндексированы в нашем поисковом массиве. Если при проведении поиска мы в состоянии отыскать восемь из них, мы говорим, что коэффициент полноты для данного конкретного поиска равен (8/10) * 100, или 80%.

Хотя показатель полноты является наиболее важной для потребителя характеристикой поисковой системы, это отнюдь не единственная ее важная характеристика. Действительно, числовые значения показателя полноты поисковой системы сами по себе не имеют смысла. Это становится очевидным, если мы примем во внимание, что максимальной полноты для любого запроса можно всегда достигнуть путем выдачи всего фонда заиндексированных документов. Другими словами, мы всегда можем добиться 100% - ной полноты, вообще не используя указатель к фонду документов, а, обращаясь непосредственно к самим документам и последовательно просматривая каждый из них до тех пор, пока не будет отобраны все желательные документы.

Точность

В свете того обстоятельства, что 100% - ной полноты поиска всегда можно добиться путем просмотра всего фонда документов, становится ясно, что:

1. численное значение полноты еще не является мерой эффективности информационно-поисковой системы;

2. назначение указателя состоит в том, чтобы отсеять как можно больше нежелательных документов, потеряв при этом как можно меньше полезных документов.

При таком подходе указатель по существу является фильтром. Его цель состоит в сокращении количества документов (или их заменителей), которые нам приходится просматривать, при сохранении приемлемого значения полноты выдачи. Поскольку коэффициент полноты есть мера способности фильтра пропускать желательные документы, необходимо располагать еще каким-то дополняющим его коэффициентом, который бы являлся мерой способности фильтра задерживать ненужные документы. Сирил Клевердон [1] предположил в качестве подходящей меры коэффициент точности 100 R/L, где R - по-прежнему число отысканных при поиске релевантных документов, а L - общее число документов, выданных при этом поиске. Рассмотрим снова наш пример, когда в фонде имеется 10 релевантных данному запросу документов, из которых при поиске в указателе мы можем найти только 8 (полнота 80%). Если при поиске этих восьми желательных документов нам выдается 100 документов (8 желательных, 92 ненужных), мы говорим, что коэффициент точности для данного поиска составляет 8/100, или 8%.

Хотя ни коэффициент полноты, ни коэффициент точности в отдельности не характеризуют работу поискового аппарата или всей системы в целом, их совместное использование дает вполне разумный способ измерения рабочей эффективности (operating efficiency) системы, т.е. эффективности по отношению к требованиям потребителей. Если по достаточному числу поисков мы определили, что наша система функционирует, например, с показателями 8% полноты и 25% точности, мы знаем, что наша система в среднем а) отыскивает 8 из каждых 10 релевантных документов и б) на каждый найденный релевантный документ выдается 3 нерелевантных. Другими словами, мы располагаем полным критерием фильтрующей способности системы: ее способности задерживать нежелательные документы и пропускать полезные.

Следует отметить, что оба эти параметра - полнота и точность - употреблялись нами как для характеристики поисковой системы в целом, так и для характеристики ее поискового массива, т.е. указателя. Это сделано не случайно: если бы мы измеряли только рабочую эффективность указателя, мы, очевидно, должны были бы выводить значения полноты и точность на основе непосредственных результатов поиска по указателю без специального вмешательства человека, например, в виде дополнительного «просеивания» или «прополки» (т.е. фильтрации второго порядка) выдачи оператором системы. Для автоматизированной системы, выдающей на печать найденные описания документов, мы должны выводить числовые значения полноты и точности по полным данным всей этой выдачи.

Аналогичным образом при оценке ручного поискового аппарата, например картонного каталога, мы должны считать найденными все источники, содержащиеся в классах, указанных в поисковом предписании (т.е. удовлетворяющие логике поиска). Значения показателей рабочей эффективности выводятся на основании этой группы документов. Предположим, что мы ищем документы, связанные с аэродинамическими нагрузками, воздействующими на стреловидное крыло в сверхзвуковом полете а) в посткоординируемом дескрипторном указателе типа «пик-э-бу» и б) в предкоординированном указателе в форме алфавитно-предметного каталога. В первом случае мы приняли решение осуществить поиск по предписанию:

[«Аэродинамическая сила» или «Аэродинамическая нагрузка» или «Подъемная сила» или «Лобовое сопротивление»] и [«Стреловидное крыло»] и [«Сверхзвуковой полет»].

Выдачей по этому поиску будет являться вся группа документов, которые удовлетворяют поисковой логике (т.е. все документы, которые заиндексированы одним из терминов, выражающих понятие аэродинамической силы, и одновременно термином «Стреловидное крыло» и одновременно одним из терминов, указывающим на «Сверхзвуковую скорость»). Значения полноты и точности должны выводиться по этой группе документов.

Аналогично при поиске в алфавитно-предметном указателе мы можем обратиться к описаниям, систематизированным по рубрикам:

Стреловидное крыло - Аэродинамические силы

Стреловидное крыло - Лобовое сопротивление

Стреловидное крыло - Подъемная сила

Стреловидное крыло - Сверхзвуковой поток

Чтобы получить числовые характеристики только одного указателя, мы должны считать найденными все источники, систематизированные под этими обозначениями классов (т.е. всю группу документов, описания которых просмотрены под выбранными рубриками), и вычислять полноту и точность по этой выдаче. Таким путем мы измеряем действительную фильтрующую способность указателя.

При оценке рабочей эффективности функционирующей поисковой системы в целом в противоположность случаю оценки одного только указателя числовые значения полноты и точности должны выводиться на основании группы документов или их заместителей, выданных конечному потребителю. При выдаче с ЭЦВМ или в системе «пик-э-бу» человек оператор может просмотреть найденные описания и выдать потребителю только те из них, которые он сам считает «вероятно релевантными». Аналогично оператор ручной системы, производя поиск в предкоординированном указателе в форме карточного каталога, может решить, что одни источники «вероятно релевантны» запросу, а другие - «вероятно нерелевантны», и в соответствии со своим решением направить потребителю только первую группу документов или их описаний.

Числовые значения полноты и точности являются удобными показателями эффективности как поисковой системы в целом, так и аппарата сравнения документов и запросов. Когда мы оцениваем поисковую систему в целом, мы должны выводить значения показателей по тому множеству документов, которое выдается конечному потребителю. Во втором случае мы должны определять эти значения по «сырой» выдаче из указателя. Важно отчетливо представлять себе, что мы фактически оцениваем, и в соответствии с этим выводить значения показателей.

Легко видеть, что коэффициент точности фактически является мерой количества усилий, затрачиваемых для достижения определенного числового значения полноты. Приложим максимум усилий для сплошного просмотра всего фонда, мы всегда можем быть уверены в достижении 100% - ной полноты. Коэффициент точности (т.е. доля релевантных в общем числе просмотренных документов) при таком поиске, очевидно, будет очень низким. Вероятность достижения 100% - ной полноты, имеет тенденцию к понижению с уменьшением числа документов в выдаче, наоборот. Так, если по некоторому предметному запросу мы проводим очень широкий поиск и отбираем 100 документов, показатель полноты, вероятно, будет на много выше, чем в том случае, когда мы сужаем наш поиск и отыскиваем только 20 документов. Однако суженное поисковое предписание должно более точно соответствовать запросу, чем широкое. Следовательно, можно ожидать, что доля релевантных документов в выдаче при суженном поиске будет выше, чем при широком. Другими словами, значение коэффициента точности будет в этом случае выше. Таким образом, здесь наблюдается тенденция к обратной зависимости между полнотой и точностью: чем больше документов мы отбираем при поиске (т.е. чем обширнее класс просматриваемых документов), тем больше релевантных документов мы найдем, однако ценой пропорционального увеличения числа нерелевантных документов в выдаче. И наоборот, чем больше мы сужаем наш поиск, придерживаясь строгого, буквального перевода терминов запроса на язык системы, тем меньше релевантных документов получим, но в то же время тем больше будет отфильтровано нерелевантных документов.

Мы уже отметили, что коэффициент точность есть мера усилий, затрачиваемых на достижение определенного значения полноты. Допустим, что имеется определенный предметный запрос, по которому в нашем фонде содержится 20 релевантных документов. При широкой формулировке поискового предписания из них будет найдено 15, а общий объем выдачи составит 150 документов. При суженном поиске мы отыщем 10 желательных источников при общем числе документов в выдаче, равно 50. Таким образом, для широкого поиска коэффициент полноты будет равен 75% (15/20 * 100) при коэффициенте точности 10% (15/150 * 100); в суженном поиске мы имеем коэффициент полноты, равный 50% при коэффициенте точности 20%. Поскольку на просмотр 150 документов или их заместителей и отбор из них 15 желательных источников требуется больше времени, чем на просмотр 50 источников и отбор из них 10, коэффициент точности действительно служит хорошей мерой затрачиваемых усилий, имея в виду как усилия потребителей системы, так и усилия оператора.

Потребитель, который желает получить «несколько хороших статей» по предмету своего запроса, фактически требует проведения весьма точного поиска. Такому потребителю едва ли захочется просмотреть большое количество нерелевантных документов, чтобы отыскать среди них еще несколько релевантных. Для его потребностей полнота 50% при коэффициенте точности 20% является лучшим показателем, чем полнота 75% при точности 10%. Однако научный сотрудник, приступающий к работе над новым проектом и желающий получить исчерпывающий обзор литературы, очевидно, готов согласиться просмотреть дополнительно ряд нерелевантных источников, чтобы отыскать среди них дополнительно несколько интересующих его материалов. Для него 75% полноты при 10% точности являются более приемлемыми характеристиками.

Таким образом, чтобы коэффициенты полноты и точности могли выполнять роль осмысленных показателей рабочей эффективности поисковой системы, они должны быть соотнесены с требованиями потребителя системы и их готовностью затратить определенные усилия.

Затраты труда

Коэффициент точности поиска есть мера усилий потребителя, необходимых для достижения определенного значения полноты поиска. Но это не только мера. Коэффициент точности отражает объем трудозатрат, расходуемых потребителем на просмотр выданных материалов или непосредственно на проведение поиска путем просмотра предкоординированного указателя ручного типа. Там, где потребитель передает функцию поиска оператору, лучший конечный результат может быть достигнут при большей затрате его личных усилий на начальном этапе процесса поиска. Вообще говоря, потребитель может приложить усилия на любой из следующих стадий поиска:

1. Он может потратить больше времени и усилий на более точное формулирование своей потребности в информации при передаче запроса оператору информационной системы.

2. Он может проанализировать предложенную ему формулировку поискового предписания до начала поиска и дать свои замечания о необходимости сужения или расширения поиска.

. Он может проанализировать некорректированную машинную выдачу по указателю, а также выдачу, полученную после первой грубой аппроксимации. По результатам анализа выданных источников он имеет возможность затем уничтожить свой запрос перед проведением заключительного запроса. Этот тип поиска с обратной связью между системой и потребителем обычно называют итеративным поиском.

Можно ожидать, что любая из этих форм воздействия потребителя и системы приведет к улучшению конечных результатов поиска в смысле повышения полноты или точности, а в некоторых случаях и обоих показателей.

Время ответа

Здесь подошли к другому важному требованию потребителя ИПС, а именно времени ответа (т.е. времени между предъявлением запроса и выдачей удовлетворительного ответа). В поисковой системе, где потребитель поручает функцию поиска персоналу информационной системы, увеличение усилий, затрачиваемых на корректировку его запроса в процессе взаимодействия с системой, может, с одной стороны, привести к улучшению показателей полноты и точности системы, а с другой - вызвать задержку ответа. В частности, это характерно для ситуации, когда потребитель, запрашивающий информацию, не имеет непосредственной связи с удаленным информационным центром.

Аналогично тому, как возможны различные требования потребителей к полноте и точности системы в зависимости от их информационных потребностей, изменяются и их требования ко времени получения ответа. Требования к быстроте ответа связаны с требованиями к полноте и точности. Исследователь, для которого в первую очередь имеет значение достижение максимальной полноты, как правило, готов ждать какое-то дополнительное время, чтобы получить добавочное количество полезных документов. В его положении быстрота ответа играет меньшую роль, чем полнота поиска. Однако он может потребовать, чтобы система выдала определенную часть полезной литературы (например, 60% - ная полнота) в некоторое минимальное количество времени.

Другая ситуация возникает в случае, когда потребитель нуждается в поиске с высокой точностью для отбора нескольких ключевых документов. Поскольку его требования к системе в этом случае в некотором смысле менее строги, он, вероятно, будет менее терпим к неоправданным задержкам ответа. На деле он может предпочесть получить два полезных документа в тот же день вместо ожидания 10 полезных документов в течение недели.

В определенных поисковых ситуациях время ответа приобретает решающее значение. Быстрое отыскание множества совершенно нерелевантных документов (нулевая полнота при нулевой точности) не может считаться ответом, имеющим какую-либо ценность, за исключением возможных случаев, когда в системе предусматривается непосредственное взаимодействие с потребителем, позволяющее ему корректировать свой запрос по выданным источникам при осуществлении итеративного поиска.

Полнота индексирования

К двум наиболее важным факторам, влияющим на полноту и точность поиска по указателю, относятся: а) полнота (exhaustivity) индексирования и б) специфичность (specificity) языка индексирования.

Полнота индексирования характеризует ту степень, в какой все отдельные предметы (темы), обсуждаемые в конкретном документе, распознаются при индексировании и переводятся на язык системы. Предположим, что имеется документ, в котором речь идет только о шести предметах (А, В, С, D, Е, Р). Если, на стадии понятийного анализа при индексировании все эти предметы распознаются в отдельности и выражаются через соответствующие комбинации терминов языка индексирования, то можно сказать, что достигнута исчерпывающая полнота индексирования данного источника информации. Очевидно, что если все шесть предметов заиндексированы, документ может быть найден независимо от того, какие предметы или комбинации предметов содержатся в запросе. Таким образом, высокий уровень полноты индексирования обеспечивает и высокую полноту поиска. При уменьшении полноты индексирования снижается полнота поиска. Если понятие F не выделено и специально не учтено при индексировании данного документа, он никогда не сможет быть найден в указателе в ответ на запрос о литературе, в которой говорится о F (если только термины, использованные для описания F в запросе, случайно не окажутся связанными иерархически или другим путем с терминами, использованными для описания понятий А-Е). При постепенном уменьшении уровня полноты индексирования путем последовательного исключения оставшихся предметов полнота поиска по отношению к конкретному документу соответственно уменьшается. Разумеется, это справедливо и для всех других заиндексированных документов. Индексирование каждого документа с максимальной полнотой обеспечивает максимальную полноту поиска по указателю.

Однако, если высокий уровень полноты индексирования обеспечивает высокую полноту поиска, он одновременно снижает его точность. Это связано в основном с двумя причинами. Во-первых, если в каждом вводимом документе выделяются и учитываются все или по крайней мере существенная часть подлежащих индексированию предметов, то тем самым оказываются заиндексированными и многие предметы, которые лишь слегка затрагиваются в данном документе. Следовательно, и они также будут выдаваться в ответ на запросы, по отношению к которым они содержат очень мало информации.

Предположим, что рассмотренный ранее документ, содержащий шесть предметов, является отчетом, описывающим определенные аэродинамические явления, и в нем говорится о применении конкретного математического метода, скажем метода Польхаузена для расчета одного из этих явлений. Предположим также, что этот математический метод был выделен на стадии понятийного анализа индексирования и выражен соответствующими терминами языка индексирования. Пусть этот метод будет предметом Р. По отношению к запросу (возможно, очень редкому), в котором потребитель требует всю литературу, описывающую применение метода Польхаузена, этот документ является релевантным и должен быть выдан. Высокий уровень полноты индексирования окажется полезным для данного запроса, требующего большой полноты выдачи. Однако рассмотрим запрос (вероятно, более частый), в ответ на который потребитель хочет получить документы, описывающие сам метод Польхаузена и способы его применения. Ему нужны только существенные статьи по этому методу; статьи, в которых он только упоминается, являются для его запроса нерелевантными. Однако поиск в массиве документов по аэродинамике, заиндексированных с высоким уровнем полноты, может привести к выдаче большого числа документов, в которых содержится лишь простое упоминание о данном методе. В этом случае высокий уровень полноты индексирования вызовет выдачу большого количества нежелательных источников (т.е. уменьшит точность поиска).

Вторая причина уменьшения точности поиска при высоком уровне полноты индексирования заключаете в следующем. Чем больше предметов учтено при индексировании и чем больше терминов языка индексирования используется для выражения этих предметов, тем больше вероятность возникновения ложных координаций терминов при поиске (предполагая, что указатель посткоординируемый). Так, документ с [шестью предметам ABCDEF, в котором, допустим, А связан с В, С с D и Е с F, может быть ошибочно выдан в ответ на любой из 12 двухаспектных запросов (А в связи с С, А в связи с D, В в связи с С и т.д.). Если каждый из шести предмете выражен определенным числом отдельных несвязанных терминов языка индексирования, вероятность появления ложных координаций на уровне терминов чрезвычайно возрастает.

С учетом всего выше сказанного нелишне все же еще раз подчеркнуть, что высокий уровень полноты индексирования приводит к большой полноте и низкой точности поиска. И наоборот, низкий уровень полноты индексирования вызывает малую полноту и высокую точность поиска. Рассмотрим ситуацию, в которой принята методика индексирования с минимальным уровнем полноты. Каждый документ в этом случае индексируется только по одному предмету - по главной теме документа. Очевидно, что полнота поиска по указателю будет крайне низкой: документ не будет выдаваться в ответ на запрос о предмете, несколько менее важном, чем главный предмет обсуждения. Вместе с тем всякий раз, когда документ будет найден при поиске в указателе, он окажется релевантным, так как в нем речь в значительной мере должна идти о предмете запроса. Кроме того, при индексировании с низкой полнотой (лишь отдельные ключевые слова) совершенно исключается возможность появления ложных координации на уровне понятий и существенно уменьшается возможность таких координаций на уровне терминов.

Необходимо подчеркнуть, что уровень полноты при индексировании определяется решением, принимаемым руководством поисковой системы. Это решение не завит от свойств языка индексирования, если используемый язык подходит для обработки тематических областей, которые рассматриваются во вводимых документах, и если любой обсуждаемый предмет может быть выражен в терминах языка системы, хотя бы на более общем, родовом уровне.

Стратегия поиска

Полнота индексирования и специфичность языка индексирования определяют полноту и точность поиска по указателю. Однако при поиске можно изменять полноту и точность для каждого отдельного поиска, применяя различные стратегии поиска. Представим себе указатель, основанный на полностью неконтролируемом словаре, в котором необходимо просматривать только один-единственный класс документов для любого поиска. В этой трудной ситуации для каждой группы проводимых поисков работают только на одной точке гипотетической кривой характеристик (т.е. для каждого поиска достигаются определенные значения полноты и точности, но при этом нет возможности расширить или сузить просматриваемый класс документов с целью улучшения полноты и точности).

Если мы имеем возможность изменять поисковые предписания (чтобы получить большее или меньшее число документов в зависимости от конкретной ситуации) путем движения вверх или вниз по иерархической цепочке, путем замены синонимов или другими способами, мы можем осуществлять поиск с различной степенью общности. Для каждого поиска или группы поисков можно менять по выбору положение на гипотетической кривой характеристик поиска. Так, мы можем счесть целесообразным пожертвовать точностью ради достижения высокой полноты, пожертвовать полнотой для получения высокой точности поиска или пойти на компромисс и работать с характеристиками, имеющими промежуточные значения.

Термины «полнота» (exhaustivity) и «специфичность» (specificity) применимы к поиску так же, как и к индексированию. Это легче всего показать на примере. Предположим, что в поисковую систему обращаются для нахождения документов, относящихся к дуговой сварке хромоникелевых сталей в защитной среде при производстве теплообменников типа трубка в трубке. Анализ запроса показывает, что он содержит три совершенно различных фасета, или аспекта (фиг. 2): фасет «Производство», фасет «Материалы» и фасет «Готовая продукция».

Если поисковое предписание отражает все три фасета, можно сказать, что оно является полностью исчерпывающим выражением, запроса. Если же в поисковом предписании, кроме того, каждый фасет представлен на требуемом потребителем уровне точности, можно утверждать, что поисковое предписание является не только полностью исчерпывающим, но и полностью специфичным, т.е. детализированным. В отношении упоминавшегося выше запроса полностью специфичное и исчерпывающее поисковое предписание должно точно устанавливать, что искомый, документ принадлежит к классам, обозначенным рубриками «Дуговая сварка в защитной среде», «Хромоникелевые стали» и «Теплообменники типа трубка в трубке».

Предположим, что в указателе производится поиск по этому детальному и исчерпывающему поисковому предписанию. Документы, которые будут найдены (если таковые окажутся), должны быть высокорелевантными по отношению к первоначальному запросу. Фактически при поиске по запросу, в максимальной степени исчерпывающему и специфичному, можно достичь 100%-ной точности (т.е. все найденные источники будут релевантны).

С другой стороны, полнота выдачи при таком поиске будет довольно низкой: вероятно, в системе окажется много документов, релевантных запросу, поисковые образы которых в терминах языка индексирования не совпадают с поисковым предписанием на требуемом уровне специфичности и полноты.

Для увеличения полноты можно уменьшить специфичность поискового предписания или его полноту или и то и другое. Например, можно уменьшить степень специфичности в фасете «Производство», оговорив, что приемлем любой документ, отнесенный к классам «Дуговая сварка», «Хромоникелевые стали» и «Теплообменники типа трубка в трубке». Фактически можно уменьшить специфичность этого фасета в нужной степени, поднимаясь все выше и выше по иерархическому дереву понятий: «Дуговая сварка в защитной среде» - «Дуговая сварка» - «Сварка» - «Соединение» - «Производство». Аналогично можно изменять степень специфичности в остальных фасетах, двигаясь по цепочке «Хромоникелевые стали» - «Стали» - «Черные металлы» - «Металлы» - «Материалы», или «Теплообменники типа трубка в трубке» - «Теплообменники» - «Технологическое оборудование» - «Оборудование» «Готовая продукция».

Другая стратегия состоит в том, чтобы вместо уменьшения степени специфичности уменьшить полноту (исчерпывающий характер) предписания. Это означает, что опускаются один или несколько аспектов, первоначально присутствовавших в предписании. Так, требование, чтобы найденные документы принадлежали к классам «Дуговая сварка в защитной среде», «Хромоникелевые стали» и «Теплообменники типа трубка в трубке», можно ослабить, запрашивая только те документы, которые принадлежат к классам «Дуговая сварка в защитной среде» и «Теплообменники типа трубка в трубке». В этих случаях полнота предписания уменьшается за счет совершенного исключения одного из аспектов при сохранении полной степени специфичности оставшихся аспектов.

Очевидно, можно одновременно уменьшить как полноту, так и специфичность (например, требуя только совместного присутствия терминов «Дуговая сварка» и «Теплообменники»). В конце концов, при дальнейшем снижении специфичности во всех фасетах можно прийти к положению, при котором уменьшение степени специфичности сольется с уменьшением полноты. В примере, изображенном на фиг. 2, можно снижать степень специфичности до тех пор, пока поиск не будет осуществляться по самому широкому классу контролируемого словаря, в данном случае по классу «Техника». Другими словами, обобщение возможно до тех пор, пока в выдаче не будет получен весь массив документов.

12 3 4 5 6 7 8 Следующая ⇒

Последнее изменение этой страницы: 2020-02-16; Просмотров: 117; Нарушение авторского права страницы