Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Неудачи при поиске, обусловленные несовершенством языка индексирования



Качество языка индексирования является, вероятно, наиболее важным единичным фактором, влияющим на характеристику поисковой системы. Плохая стратегия поиска, несовершенное или непоследовательное индексирование могут снизить поисковую характеристику, но хорошее индексирование и хороший поиск не в состоянии компенсировать несовершенство языка индексирования. Другими словами, индексаторы и лица, осуществляющие поиск, могут достигнуть только такого уровня результатов, который соответствует возможностям языка индексирования.

Неудачи при поиске, обусловленные недостатками языка индексирования, бывают двух основных типов: 1 ) неудачи, являющиеся следствием недостаточной специфичности терминов языка индексирования, и 2) неудачи за счет неоднозначной или ошибочной связи терминов. Недостаточная специфичность языка индексирования может привести как к потерям, так и к шумам при поиске. Если мы при отнесении документа к конкретному классу не можем точно определить последний в терминах языка индексирования, хотя и используем словарь входов, следствием недостаточной специфичности словаря будут шумы, а потери, относимые к этой причине, будут отсутствовать. Результатом пропуска понятия, имеющегося в словаре входов, будут как шумы, так и потери.

Для примера рассмотрим тему «Нарушения зрительного восприятия». Предположим, что мы не можем однозначно определить это понятие, но решили его заиндексировать, используя комбинацию терминов «Зрение» и«Иллюзию».

Представим себе теперь, что имеется запрос на документ по данной теме. Поскольку понятие присутствует в словаре входов, нам известно, какую комбинацию терминов необходимо использовать в поисковом предписании. Поиск будет сопровождаться шумом, поскольку логическое произведение классов «Зрение» и «Иллюзии» «Зрительные иллюзии» - шире точного класса «Нарушения зрительного восприятия». Однако потерь не будет, так как наличие данного понятия в словаре входов дает возможность сохранять неизменным результат его идентификации при индексировании и позволяет точно определить конкретный характер этой идентификации лицу, производящему поиск. Предположим теперь, что мы не имеем точного термина для понятия «Нарушения зрительного восприятия» И не можем отразить его какой-либо комбинацией других терминов, хотя документ по данной теме введен в систему. В этом случае возможны следующие исходы:

1. Пропуск этого понятия индексатором. Вероятно, что при индексировании документа, в котором говорится о нарушениях зрительного восприятия, причем данная тема не обязательно является в нем центральной, она будет опущена индексатором, если ни в словаре входов, ни в словаре терминов индексирования не имеется точного термина для ее отражения.

2. Не идентичность результатов индексирования. Одни индексаторы могут использовать «Зрение» и «Иллюзии», в то время как другие - иную комбинацию терминов.

.   Потери в процессе последующего поиска по данной теме. Некоторые из них будут следствием пропусков понятий при индексировании, другие - неидентичности результатов индексирования (лицо, осуществляющее поиск, не знает, к какой категории был отнесен запрашиваемый предмет, и не охватывает всех возможных комбинаций терминов, необходимых для достижения высокой полноты).

.   Появление дополнительных шумов при поиске.

Поскольку лицо, осуществляющее поиск, не знает результатов индексирования данного понятия, оно будет вынуждено использовать большое число альтернативных комбинаций терминов, часть которых приведет к выдаче большого числа иррелевантных документов.

Из сказанного выше можно сделать некоторые выводы. Потери, обусловленные недостаточной специфичностью терминов, означают, что тема поиска или некоторые из ее аспектов не отражены даже в словаре входов системы. Шумы, обусловленные недостатком специфичности, указывают на неадекватность объемов индексируемого понятия и понятий, используемых для его определения в словаре индексационных терминов. Устранение шумов этого типа должно осуществляться путем включения в словарь терминов или их комбинаций, адекватно по объему определяющих искомое понятие. Для устранения потерь нам нет необходимости адекватно определять понятие, но мы должны включить его в словарь входов.

Чтобы лучше понять смысл недостаточной специфичности языка индексирования, удобно классифицировать все экспериментальные запросы по предметным областям и подсчитать количество запросов в каждой предметной области, затронутых недостаточной специфичностью терминов словаря с точки зрения неудач при поиске.

По отношению к запросам, сформулированным для данной конкретной системы, словарь, относящийся к составу и структуре металла, крайне несовершенен (свыше трети всех поисков по этой теме отмечено недостатком специфичности) и требует принятия немедленных мер по его доработке.

Неопределенность и ложность отношений между терминами является другим источником шумов. В некотором смысле все термины, приписываемые документу в процессе индексирования, должны рассматриваться как связанные определенным отношением, даже если эта связь является весьма слабой (т.е. состоит в том, что оба термина находятся в одном и том же поисковом образе документа). Тем не менее рассмотрим поиск, включающий простое отношение двух терминов в виде логического произведения, т.е. А 8 отношении к В. Несмотря на то что все найденные с помощью этой координации документы должны быть заиндексированы и термином А и термином В, некоторые из них могут оказаться нерелевантными ввиду отсутствия непосредственной связи между А и В (ложная координация) или наличия связи, представленной иным видом отношений, чем было указано потребителем (неадекватная взаимосвязь терминов). Различиемежду ними можно пояснить на некоторых примерах. Рассмотрим запрос по теме «Нейрологические осложнения болезней почек». Одна из комбинаций терминов, используемых в поисковом предписании, включает «Уремия» и «Миозит». В одном из найденных нерелевантных документов обсуждаются результаты определения кальция в сыворотке при различных заболеваниях, в том числе при уремии и полимиозите. Очевидно, что в этом документе указанные термины не находятся в прямой взаимосвязи (т.е. в нем неидет речь о больном, страдающем и уремией, и миозитом). Данный пример является иллюстрацией случая ложной координации.

Рассмотрим другой запрос, касающийся «Нарушения менструаций после прекращения перорального приема противозачаточных средств». Одной из поисковых комбинаций является «Применение противозачаточных средств, перорально» и «Нарушения менструации». Однако при данной стратегии поиска находится ряд документов по терапевтическому использованию вводимых перорально противозачаточных средств (эстрогенов) для лечения нарушений менструаций. Это пример неадекватной взаимосвязи терминов: два термина определенным образом связаны в нежелательном документе, но не тем отношением, которое имел в виду потребитель (случаи, когда нарушения менструации были следствием перорального приема противозачаточных средств).

Ложных координаций можно избежать путем использования средств объединения терминов [обычно называемых указателями связи (links)], тогда как неадекватность отношений терминов устраняется применением указателей роли. Число неудач этого типа можно существенно снизить путем большей спецификации терминов словаря. Предположим, что мы осуществляем поиск по рыбным токсинам (т.е. токсинам, вырабатываемым рыбами, таким, как тетродоксин) путем координации терминов «Токсины» и«Рыбы». В некоторых из найденных документов рассматриваются токсины (например, бактериальные), имеющие отношение к рыбам, но не производимые ими. Очевидно, можно было бы избежать подобных выдач, если бы мы подразделили класс токсинов следующим образом:

Токсины, Животные (т.е. вырабатываемые животными)

Токсины, Бактерии (т.е. вырабатываемые бактериями)

Токсины, Растения (т.е. вырабатываемые растениями)

В этом случае был бы возможен поиск рыбных токсинов путем координации терминов Токсины, Животные иРыбы. Это не исключило бы все неоднозначные и ложные связи, однако уменьшило бы их число. По крайней мере, мы были бы в состоянии избежать выдачи документов по бактериальным токсинам.

Одним из способов, существенно повышающих специфичность терминов словаря и позволяющих избежать многих типов ложных координаций и неадекватности связей терминов, является использование подзаголовков. Подзаголовками служат термины, выражающие общие понятия, которые могут быть добавлены к основным заголовкам. Так, записывая «Уремия / Осложнения» и «Миозит / Этиология», мы соединяем термин «Уремия» с термином «Миозит» (т.е. связываем оба термина) и в то же время указываем точное взаимоотношение между ними (миозит является осложнением уремии). Аналогичным способом можно избежать упомянутых ранее неадекватных отношений терминов. «Противозачаточные средства, перорально / Вредное действие» и«Нарушения менструации» является комбинацией, необходимой для нахождения релевантных документов. При этом будет отсутствовать нерелевантная литература по терапевтическому использованию противозачаточных средств (заиндексированная терминами «Противозачаточные средства, перорально» и «Терапевтическое использование»)»

До сих пор мы рассматривали шумы, обусловленные отсутствием указателей отношений терминов в словаре, Со своей стороны, наличие в системе указателей отношений потенциально приводит к потерям при поиске. Это особенно справедливо по отношению к указателям роли, которые, в силу того, что они придают словарю большую специфичность и позволяют выражать более точные оттенки значения терминов, трудно применять в логически последовательном виде [1]. Аналогичный вывод, по-видимому, справедлив и в отношении подзаголовков, хотя в настоящее время еще не имеется прямых доказательств этого. В качестве примера рассмотрим запрос «Применение зализывающих устройств для снижения лобового сопротивления при установке обтекателей гидролокаторов». «Зализы» в этом случае трактуются как средства установки обтекателей гидролокаторов. Поиск поэтому осуществляется по следующей комбинации терминов: «Обтекатели гидролокаторов» (роль 9 - пассивный объект операции установки) и «Зализы» (роль 10 - средства достижения установки).

Для выявления предметных областей, в которых обсуждаемые проблемы языка индексирования находят наиболее частое отражение, будет снова полезным представить результаты эксперимента в виде таблицы. Путем разнесения попредметным областям мы можем определить шумы, обусловленные наличием неадекватных связей терминов, и получить результаты, аналогичные по форме приведенным в табл. 4. Из табл. 4 следует, что шумы, являющиеся следствием неадекватности взаимоотношений терминов, присутствуют более чем в половине поисков по биологическим эффектам физических явлений. Этот результат не может не заинтересовать нас. Для выяснения причин подобной ситуации необходимо выполнить дальнейший анализ. При этом мы обнаружим, что большинство запросов, относящихся к этой широкой предметной области, касается биологического воздействия радиации и что причиной шумов является недостаточная специфичность языка индексирования, проявляющаяся в невозможности установления ясного различия между вредным действием радиации и ее терапевтическом использовании (радиотерапия). В связи с этим, очевидно, необходима доработка данного фрагмента словаря.

Наоборот, там, где мы сталкиваемся с проблемами использования указателей роли,

Подобное табулирование позволит определить, какой указатель роли труднее всего применить в логически последовательной форме при индексировании и поиске. В свою очередь это дает нам также возможность принять соответствующие корректирующие меры.

Мы обсудили основные причины неудач при поиске, обусловленные несовершенством элементов языка индексирования. Возможны и другие недостатки языка, однако они, вероятно, оказывают менее существенное воздействие на характеристики системы. Дефекты или аномалии в иерархической структуре словаря могут привести к потерям и шумам. Рассмотрим, например, поиск по теме «Процессы развития, регенерации и дегенерации нервной системы».

Одна из стратегий включает поиск по термину «Заживление ран» илюбому термину из иерархического дерева понятия «Болезни нервной системы» (т.е. родовой поиск по болезням нервной системы). Эта иерархия включает, к сожалению, термин «Боль», и комбинация «Боль» и«Заживление ран» приводит к выдаче ряда совершенно нерелевантных документов, включая документы по геморроям. Неудачи при поиске могут быть также следствием несовершенства системы перекрестных ссылок в тезаурусе. Например, поиск ведется по теме «Конструктивная устойчивость сотовых стержней» с использованием терминов «Устойчивость» и «Неустойчивость». Но эти термины не связаны в тезаурусе с другими терминами, имеющими определенное отношение к «устойчивости» В текстах документов по строительной технике (например, «Разрушение» и «Усталость»). Результатом этого будут потери.

Существуют два различных типа неудач, обусловленных недостатками процесса индексирования: 1) неудачи, вызванные ошибками индексатора, и 2) неудачи, являющиеся следствием решения относительно среднего числа терминов, приписываемых документу при индексировании. В свою очередь ошибки индексатора могут быть также двух типов: а) пропуски термина или терминов, необходимых для описания важных тем, обсуждаемых в документе, и 2) использование терминов, не соответствующих предметному содержанию документа. Пропуски обычно приводят к потерям, в то время как использование неподходящих терминов (т.е. совершенно неверное индексирование) может вызвать как шумы (лицо, осуществляющее поиск, использует этот термин в поисковой стратегии и находит нерелевантные документы), так и потери (лицо, осуществляющее поиск, использует правильный термин, но нужный документ не будет найден, так как он представлен в массиве неверным термином).

Различие между потерями, обусловленными ошибками индексатора, и потерями за счет недостаточной полноты индексирования заключается в следующем:

1. Пропуск индексатора: центральная тема обсуждаемого в документе предмета совсем не отражается при индексировании. Вместе с тем пропущенная тема ощущается настолько важной, что должна быть отражена даже в случае индексирования с малой полнотой.

2. Недостаточная полнота: при индексировании не отражены второстепенные аспекты содержания. Тема не является основной в документе и, по-видимому, исключена в пользу других тем в соответствии с принятым решением относительно среднего числа приписываемых терминов.

К сожалению, если при индексировании документа пропущен важный термин, документ, вероятно, останется не найденным в ряде поисков, для которых он, возможно, является в большой степени релевантным. Более того, ошибки этого типа, хотя и могут вскрыты в ходе выполнения программы оценки, останутся не обнаруженными при обычном режиме функционирования системы. Несомненно, что некоторого числа пропусков индексатора нельзя избежать в условиях сжатых графиков работы. Однако, по-видимому, относительное число неудач при поиске по этой причине большего числа неудач из-за использования неподходящих терминов. Если работа одного индексатора контролируется («перепроверяется») вторым, ошибочное использование терминов при индексировании будет в большинстве случаев выявлено и может быть легко исправлено. Пропуски же определить гораздо труднее, поскольку здесь требуется внимательное изучение самого документа в ходе контрольной проверки.

Ранее уже указывалось, что чем полнее мы описываем (с помощью терминов языка индексирования) содержание документа, тем большей будет ожидаемая полнота поиска. Наоборот, вследствие обратной зависимости между полнотой и точностью, чем больше полнота индексирования, тем больше вероятность появления шумов.

Частично это объясняется наличием больших потенциальных возможностей для ложной координации терминов, частично же тем фактом, что полное, исчерпывающее индексирование приводит к выдаче документов, имеющих весьма слабое отношение к запросу. В процессе функционирования любой поисковой системы, вероятно, будут потери вследствие недостаточно полного индексирования. В то же время при полном индексировании возможно и появление шумов, главным образом за счет выдачи документов, малоинформативных по отношению к сформулированному запросу. Наиболее трудной проблемой, связанной с методикой индексирования, в любой системе является решение о приемлемой полноте индексирования.

При анализе результатов эксперимента надо попытаться выявить все поиски, в которых наиболее вероятны потери, обусловленные недостаточной полнотой индексирования. И наоборот, надо выявить поиски, в которых возможны шумы вследствие большой полноты индексирования. Например, может выявиться невозможность осуществления успешных поисков по определенным методам медицинской диагностики (например, биопсии костного мозга), так как эти способы, зафиксированные в историях болезней на различных их стадиях, не отражены должным образом при индексировании. Аналогично мы могли бы обнаружить, что другие типы поиска неизменно приводят к низкой точности вследствие способа использования определенных терминов. Например, может оказаться затруднительным проведение успешного поиска по конкретным приложениям электронных вычислительных машин для обработки данных (например, по машинному считыванию электрокардиограмм), так как термины языка индексирования, относящиеся к «обработке данных», использовались без дальнейшей детализации во всех случаях, когда в документе рассматривались вопросы применения ЭВМ (например, «расчеты были выполнены на ЭВМ IВM 7094»).

Если в системе имеются различные типы документов, заиндексированные с различной степенью полноты, необходимо протабулировать результаты поиска для каждого типа, чтобы точно выяснить влияние степени полноты, индексирования на коэффициенты полноты и точности поиска. Такое табулирование может оказать помощь в установлении «оптимального» уровня полноты индексирования. С другой стороны, оно, возможно, выявит неадекватность индексирования ряда документов.

Из этих данных отчетливо видна неадекватность индексирования (по отношению к сформулированным запросам) введенных в систему журнальных статей. Как и ожидалось, они заиндексированы с меньшей полнотой по сравнению с научно-техническими отчетами, в поисковых образах которых присутствует значительно большее число терминов. В подобной ситуации, вероятно, должна наблюдаться своего рода компенсация в виде большей точности поиска журнальных статей, однако это не так. В действительности, и полнота, и точность их поиска ниже соответствующих показателей для научно-технических отчетов. Чтобы выяснить причины такой аномалии, очевидно, необходимо провести определенный анализ. Вероятно, мы при этом обнаружим, что журнальные статьи (поскольку они в результате принятой методики описаны меньшим числом терминов) заиндексированы и менее полно, и менее специфично. Рассмотрим, например, статью по производству сосудов высокого давления. В ней описывается производство методом дуговой сварки в защитной среде и обсуждается использование различных защитных газов. Ввиду ограничения среднего числа приписываемых терминов мы индексируем статью термином «Дуговая сварка в среде защитных газов», но не отмечаем особыми терминами конкретные упоминаемые газы. Следовательно, при поиске по теме «Аргонная дуговая сварка сосудов высокого давления» статья не будет выдана, хотя она и релевантна данному запросу. Отсутствие гибкости при установлении среднего числа приписываемых в процессе индексирования терминов весьма опасно, особенно когда это приводит к слишком общему отражению содержания некоторых типов документов, как в приведенном примере.

Полнота индексирования является, конечно, относительным понятием. Представим себе поиск по предмету «Хрусталик глаза позвоночных», проводимый по термину «Хрусталик глаза» итерминам, относящимся к позвоночным. Один из найденных документов, признанный нерелевантным, касается тучных клеток и содержания гистамина в глазу крупного рогатого скота. При изучении документа обнаружено, что упоминание о хрусталике имеется в нем лишь в одном месте. В этом случае мы должны сказать, что данная неудача при поиске во многом обусловлена исчерпывающей полнотой поиска; поэтому по отношению к приведенному запросу приписывание документу термина «Хрусталик глаза» следует признать неоправданным. С другой стороны, возьмем гораздо более специфический запрос на документы, касающиеся содержания гистамина в хрусталике глаза. По отношению к этому запросу упомянутый выше документ является более релевантным и может действительно оказаться одним из немногих, содержащих сведения о численных значениях соответствующих величин. В этом случае присутствие в документе термина «Хрусталик глаза» полностью· оправданно. В целом можно сказать, что лучше ошибаться при индексировании в сторону большей полноты. Трудно найти документ по предмету Х, если термин Х не отражен при индексировании документа. Вместе с тем имеются, однако, и различные способы уменьшения полноты индексирования (и соответствующего повышения точности) при поиске. Наиболее очевидным из них является использование весовых коэффициентов.

 


Поделиться:



Последнее изменение этой страницы: 2020-02-16; Просмотров: 99; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.026 с.)
Главная | Случайная страница | Обратная связь