Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Специфичность языка индексирования



В то время как полнота системы определяется скорее принятой полнотой индексирования, чем внутренними свойствами языка индексирования, точность поиска всецело зависит от способности языка индексирования точно описать обсуждаемые темы (т.е. от его специфичности). Это утверждение лучше всего можно проиллюстрировать на примере. Рассмотрим три различные поисковые системы А, В и С, в которых используются контролируемые словари, содержащие соответственно 2000, 1000 и 500 терминов. Предположим, что в каждой из этих систем заиндексирован тот же самый массив документов по аэродинамике. В некоторых из этих документов речь идет о «тонких дельтовидных крыльях».

При индексировании таких документов в системе А, имеющей 2000 терминов, можно точно отразить их тематическое содержание с помощью класса, озаглавленного «Тонкие дельтовидные крылья». При индексировании этих же документов в системе В с 1000 индексационных терминов нельзя точно отразить их содержание. Возможно, их нужно отнести к более широкому классу под рубрикой «Дельтовидные крылья». Что же касается системы С то в ней, возможно, самым специфическим термином, который может быть приписан этому классу документов окажется термин «Крылья».

При поступлении в систему А запроса по «Тонким дельтовидным крыльям» можно точно выразить этот предмет при формулировании поискового предписания так же, как и при индексировании документов, и можно ожидать, что в под массиве выданных документов будет много релевантных документов (т.е. коэффициент точности поиска будет высоким). С другой

 

стороны, коэффициент полноты поиска будет, вероятно, низким, потому что система может не выдать ряд документов, которые содержат полезную информацию по теме «Тонкие дельтовидные крылья. Не будут выданы, например:

. Документы, в которых идет речь о дельтовидных крыльях вообще, но содержится существенная информация по тонким дельтовидным крыльям. Они могли быть заиндексированы термином «Дельтовидные крылья».

. Документы, в которых идет речь о тонких дельтовидных крыльях, но заиндексированные синонимичными терминами или комбинацией терминов, например «Дельтовидные крылья малого удлинения».

Если тот же запрос направить в систему В, полнота поиска увеличится. В этом случае мы уже не можем точно отразить предмет «Тонкие дельтовидные крылья», поэтому следует прибегнуть к термину «Дельтовидные крылья». Тем самым будет получено некоторое дополнительное количество релевантных документов, пропущенных при поиске в системе А. Однако ряд потенциально полезных документов может быть все же пропущен (например, те документы по крыльям вообще, которые содержат существенную информацию по тонким дельтовидным крыльям, и те документы по дельтавидным крыльям, которые были заиндексированы синонимичными терминами или комбинацией терминов, например «Треугольные крылья»). Эти дополнительные полезные документы будут найдены при поиске в системе С, где недостаток специфичности языка индексирования заставляет проводить поиск под широким классом «Крылья».

При переходе от системы А к системе В и далее к системе С число документов в каждом поиске будет увеличиваться и, таким образом, будет возрастать его полнота. Это происходит ввиду того, что число отдельных рубрик, обозначающих классы, уменьшается, а размер классов документов, отнесенных к этим рубрикам, соответственно увеличивается. В то же время точность имеет тенденцию снижаться: в ответ на запрос о документах по тонким дельтавидным крыльям класс документов, отнесенных к рубрике «Тонкие дельтовидные крылья», должен содержать более высокий процент полезных документов, чемкласс, отнесенный к рубрике «Дельтовидные крылья», который в свою очередь содержит более высокий процент полезных документов, чем класс под рубрикой «Крылья».

Другими словами, чем выше степень специфичности языка индексирования, тем более точно можно отразить предметное содержание и тем меньше создаваемые при этомклассы документов, т.е. тем большую точность можнополучить при поиске в системе. С другой стороны, если такая точность достигается путем точного определения класса искомых документов, полнота имеет тенденцию понижаться по сравнению с указателем, использующим язык с меньшей специфичностью, в котором образующиеся классы документов больше по размерам. Короче говоря, сильно детализированный язык индексирования позволяет получить высокую точность поиска при одновременном уменьшении полноты поиска. Язык индексирования, имеющий невысокую степень специфичности, обеспечивает высокое значение полноты, но не дает возможности получить высокую точность.

Суммируя, можно сказать, что полнота индексирования определяет полноту поиска по указателю, а степень специфичности языка индексирования определяет его точность. В предыдущем изложении мы умышленно избегали употребления термина «глубина», который довольно распространен в литературе по информатике В том значении, в котором термин «индексирование набольшую глубину» употребляется в литературе, он означает просто использование большего числа терминов, чем при индексировании «на небольшую глубину». Однако при этом редко указывается, используются ли эти дополнительные термины для отражения новых, предметов (тем) документа (повышение полноты) или для более точного индексирования ограниченного числа предметов (тем) (повышение степени специфичности). Другими словами, термин «глубина индексирования» используется одними авторами для описания точности определения классов, а другими для описания степени подробности, с

которой все предметы, обсуждаемые в документе, могут быть отражены при индексировании этого документа. Чтобы разграничить эти две совершенно различные характеристики, в Крэнфилдском проекте были введены и определены термины «специфичность» и «полнота» индексирования.

Стратегия поиска

Полнота индексирования и специфичность языка индексирования определяют полноту и точность поиска по указателю. Однако при поиске можно изменять полноту и точность для каждого отдельного поиска, применяя различные стратегии поиска. Представим себе указатель, основанный на полностью неконтролируемом словаре, в котором необходимо просматривать только один-единственный класс документов для любого поиска. В этой трудной ситуации для каждой группы проводимых поисков работают только на одной точке гипотетической кривой характеристик (т.е. для каждого поиска достигаются определенные значения полноты и точности, но при этом нет возможности расширить или сузить просматриваемый класс документов с целью улучшения полноты и точности).

Если мы имеем возможность изменять поисковые предписания (чтобы получить большее или меньшее число документов в зависимости от конкретной ситуации) путем движения вверх или вниз по иерархической цепочке, путем замены синонимов или другими способами, мы можем осуществлять поиск с различной степенью общности. Для каждого поиска или группы поисков можно менять по выбору положение на гипотетической кривой характеристик поиска. Так, мы можем счесть целесообразным пожертвовать точностью ради достижения высокой полноты, пожертвовать полнотой для получения высокой точности поиска или пойти на компромисс и работать с характеристиками, имеющими промежуточные значения.

Термины «полнота» (exhaustivity) и «специфичность» (specificity) применимы к поиску так же, как и к индексированию. Это легче всего показать на примере. Предположим, что в поисковую систему обращаются для нахождения документов, относящихся к дуговой сварке хромоникелевых сталей в защитной среде при производстве теплообменников типа трубка в трубке. Анализ запроса показывает, что он содержит три совершенно различных фасета, или аспекта (фиг. 2): фасет «Производство», фасет «Материалы» и фасет «Готовая продукция».

Если поисковое предписание отражает все три фасета, можно сказать, что оно является полностью исчерпывающим выражением, запроса. Если же в поисковом предписании, кроме того, каждый фасет представлен на требуемом потребителем уровне точности, можно утверждать, что поисковое предписание является не только полностью исчерпывающим, но и полностью специфичным, т.е. детализированным. В отношении упоминавшегося выше запроса полностью специфичное и исчерпывающее поисковое предписание должно точно устанавливать, что искомый, документ принадлежит к классам, обозначенным рубриками «Дуговая сварка в защитной среде», «Хромоникелевые стали» и «Теплообменники типа трубка в трубке».

Предположим, что в указателе производится поиск по этому детальному и исчерпывающему поисковому предписанию. Документы, которые будут найдены (если таковые окажутся), должны быть высокорелевантными по отношению к первоначальному запросу. Фактически при поиске по запросу, в максимальной степени исчерпывающему и специфичному, можно достичь 100%-ной точности (т.е. все найденные источники будут релевантны).

С другой стороны, полнота выдачи при таком поиске будет довольно низкой: вероятно, в системе окажется много документов, релевантных запросу, поисковые образы которых в терминах языка индексирования не совпадают с поисковым предписанием на требуемом уровне специфичности и полноты.

Для увеличения полноты можно уменьшить специфичность поискового предписания или его полноту или и то и другое. Например, можно уменьшить степень специфичности в фасете «Производство», оговорив, что приемлем любой документ, отнесенный к классам «Дуговая сварка», «Хромоникелевые стали» и «Теплообменники типа трубка в трубке». Фактически можно уменьшить специфичность этого фасета в нужной степени, поднимаясь все выше и выше по иерархическому дереву понятий: «Дуговая сварка в защитной среде» - «Дуговая сварка» - «Сварка» - «Соединение» - «Производство». Аналогично можно изменять степень специфичности в остальных фасетах, двигаясь по цепочке «Хромоникелевые стали» - «Стали» - «Черные металлы» - «Металлы» - «Материалы», или «Теплообменники типа трубка в трубке» - «Теплообменники» - «Технологическое оборудование» - «Оборудование» «Готовая продукция».

Другая стратегия состоит в том, чтобы вместо уменьшения степени специфичности уменьшить полноту (исчерпывающий характер) предписания. Это означает, что опускаются один или несколько аспектов, первоначально присутствовавших в предписании. Так, требование, чтобы найденные документы принадлежали к классам «Дуговая сварка в защитной среде», «Хромоникелевые стали» и «Теплообменники типа трубка в трубке», можно ослабить, запрашивая только те документы, которые принадлежат к классам «Дуговая сварка в защитной среде» и «Теплообменники типа трубка в трубке». В этих случаях полнота предписания уменьшается за счет совершенного исключения одного из аспектов при сохранении полной степени специфичности оставшихся аспектов.

Очевидно, можно одновременно уменьшить как полноту, так и специфичность (например, требуя только совместного присутствия терминов «Дуговая сварка» и «Теплообменники»). В конце концов, при дальнейшем снижении специфичности во всех фасетах можно прийти к положению, при котором уменьшение степени специфичности сольется с уменьшением полноты. В примере, изображенном на фиг. 2, можно снижать степень специфичности до тех пор, пока поиск не будет осуществляться по самому широкому классу контролируемого словаря, в данном случае по классу «Техника». Другими словами, обобщение возможно до тех пор, пока в выдаче не будет получен весь массив документов.

Уменьшая полноту или степень специфичности поискового предписания, мы тем самым расширяем поиск (т.е. ослабляем требования и получаем больший класс документов). До тех пор пока расширение поиска осуществляется в разумных пределах, будут выдаваться дополнительные релевантные документы (т.е. полнота поиска будет увеличиваться). В то же время будет выдаваться большое количество нерелевантных документов (т.е. точность будет уменьшаться). В отношении ранее рассмотренного запроса уже было сказано, что предписание: «Дуговая сварка в защитной среде» и «Хромоникелевые стали» и «Теплообменники типа трубка в трубке», если по нему вообще выдается хоть один документ, обеспечивает 100%-ную точность поиска. При ослаблении требований до такой степени, что им уже удовлетворяет любой документ, заиндексированный каким-то термином «соединения» (т.е. любой документ, относящийся к самому общему классу «Соединение»), существует большая вероятность получения полноты поиска, приближающейся к 100%. Однако значение точности будет, вероятно, очень низкое, так как большая часть документов, полученных в ответ на столь широкий запрос, не будет релевантной по отношению к конкретной теме, интересующей потребителя.

Итак, имеется две крайности. Возможность изменять степень специфичности и (или) полноты при поиске позволяет влиять на объем выдачи с целью получения желательных значений: полноты и точности поиска. Так, для определенного поиска можно подготовить три отдельных поисковых предписания различной степени специфичности. Наиболее широкий поиск позволяет получить значения 95% полноты и 2% точности, наиболее точный поиск - 10% полноты и 85% точности, а «находящийся на полпути» поиск - значения полноты и точности около 50%.

Однако, хотя изменение стратегии поиска позволяет влиять на объем выдачи и тем самым на полноту и точность поиска, пределы этого» влияния ограничены и зависят от полноты индексирования и степени специфичности языка индексирования. В указателе к массиву металлургических документов нельзя получить очень высокое значение точности при поиске по запросу «Дуговая сварка хромоникелевых сталей в защитной среде при производстве теплообменников типа трубка в трубке», если наиболее специфичными терминами языка индексирования будут: «Соединение» в аспекте «Производство», «Стали» в аспекте «Материалы» и «Технологическое оборудование» в аспекте «Готовая продукция». Точно так же, если многотематический доклад содержит ценную информацию по сварке теплообменников типа трубка в трубке, но этот аспект не отражен при индексировании документа, соответствующий документ не сможет быть найден в ответ на рассмотренный выше запрос даже при расширении поиска за счет включения всех членов класса «Соединение».

Таким образом, полнота поиска по указателю зависит от полноты индексирования, а его точность - от степени специфичности языка индексирования. При использовании исчерпывающего индексирования и чрезвычайно специфичного языка индексирования можно получить различные значения характеристик поиска (от высокой полноты при низкой точности до высокой точности при низкой полноте) за счет изменения стратегии поиска.


Поделиться:



Последнее изменение этой страницы: 2020-02-16; Просмотров: 100; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.019 с.)
Главная | Случайная страница | Обратная связь