Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Неудачи, обусловленные несовершенством процесса поиска ⇐ ПредыдущаяСтр 8 из 8
Существуют три основных типа неудач, относимых к самому процессу поиска: 1. явные ошибки включающие использование неподходящих терминов или неправильной стратегии поиска; 2. неудачи, обусловленные принятыми в поисковой стратегии уровнями специфичности и / или полноты; . потери, обусловленные тем фактом, что лицо, осуществляющее поиск, не использовало всех «разумных» способов для отыскания релевантных документов. Неудача, связанная с не использованием всех разумных способов для отыскания релевантных документов, часто является основной причиной потерь. К этой причине следует отнести любой пропущенный релевантный документ, который мог бы быть найден по терминам или комбинациям терминов, если производящий поиск учел бы «разумные» возможности выбора терминов при составлении поискового предписания. На практике встречаются два вида неудач этого типа: 1. пропуск одного релевантного термина или комбинации терминов в формулировке запроса, которая во всех других отношениях хорошо отражает интересы потребителя; 2. пропуск целого аспекта запроса в том виде, как он сформулирован потребителем. Первый тип менее опасен по своим последствиям, чем второй, но и он может существенно уменьшить коэффициент полноты поиска. Пусть, например, ищется материал по лечению (т.е. восстановлению) ампутированных кончиков пальцев. Лицо, осуществляющее поиск, не использовало ни одного термина, относящегося к понятию «Лечение», целиком полагаясь лишь на термины, относящиеся к понятиям «Пальцы» и «Ампутация». Однако не все документы по поврежденным кончикам пальцев заиндексированы термином «Ампутация» (который используется скорее в смысле терапевтической, чем травматической ампутации), и полнота поиска будет поэтому очень низкой. Или рассмотрим поиск материалов по эмбриологии хрусталика глаза. Лицо, осуществляющее поиск, координирует термин «Хрусталик глаза» с терминами, относящимися к эмбриологии, но не полностью отражает последнюю группу терминов (например, термины «Эмбрион» и «Куриный эмбрион» пропущены). В этом случае полнота поиска также снижается. Более пагубные последствия возможны в случае пропуска лицом, осуществляющим поиск, целых аспектов темы, эксплицитно выраженных в запросе. Этот тип неудач особенно часто встречается в довольно длинных многоаспектных формулировках запросов. Основной причиной его, по-видимому, является небрежное чтение запроса. В то время как пропуски нужных терминов в поисковом предписании приводят к потерям, использование неподходящих терминов будет вызывать шумы. Рассмотрим, например, поиск материалов по машинному распознаванию клеток. Лицо, осуществляющее поиск, координирует термины, относящиеся к «Обработке данных», с терминами, отражающими понятие «Клетка», но ошибочно включает в первую группу термин «Кибернетика». Этот термин не имеет отношения к поиску по теме «Распознавание клеток», которое по существу является частным случаем проблемы распознавания образов, поэтому такая ошибочная координация приведет к выдаче многих нерелевантных документов, в которых клетки трактуются как кибернетические системы. Неподходящие комбинации терминов будут чаще всего появляться в относительно сложных поисковых предписаниях, в которых множество терминов одной логической суммы «пересекается»с множеством терминов второй суммы. В то время как общая стратегия поиска может быть вполне разумной, некоторые из комбинаций, являющиеся продуктом пересечения, могут оказаться неподходящими для данного поиска. Например, на запрос о литературе, касающейся деятельности медицинских школ, врачебных пунктов и органов здравоохранения в области планирования деторождения, поиск проводится по следующей комбинации: [Термины, указывающие на область медицины] и [Термины, отражающие планирование семьи] К сожалению, в первую группу входят также термины, обозначающие медицинские специальности, среди которых имеется термин «Акушерство», в то время как термин «Беременность» включен во вторую группу. Не удивительно, что комбинация «Акушерство» u «Беременность» приводит к выдаче большого числа документов по охране материнства, и доля шумов при поиске составляет 90%. Неправильная логика поиска может вызвать ряд неудач, хотя она и не должна быть их основной причиной. В довольно сложном булевом выражении, включающем суммы, произведения и отрицания, легко ошибиться и поставить итам, где подразумевается или(или наоборот), или же неумышленно связать при помощи символа итермин с самим собой. Многие потери и шумы связаны с вариациями полноты и / или специфичности поискового предписания. Несомненно, что изменение полноты и специфичности является существенным элементом поисковой стратегии. Действительно, центральной проблемой поиска является принятие решения относительно оптимального уровня полноты и специфичности для каждого конкретного запроса. Чем менее специфична и полна формулировка, тем больше документов будет найдено; при этом полнота поиска будет иметь тенденцию повышаться, а точность - понипонижаться. Чем более специфична и полна формулировка, тем меньше документов будет найдено, полнота будет стремиться к понижению, а точность - к повышению. Для каждого конкретного запроса следует решить, в каком направлении лучше двигаться, другими словами, насколько потребитель на деле хочет приблизиться к полноте поиска, равной 100%, учитывая, что чем ближе мы подходим к этой цифре, тем большее число документов, вероятно, будет выдано и тем ниже будет вероятная точность поиска. Полным, или исчерпывающим(exhaustive), поисковым предписанием является то, которое требует совместного появления всех запрашиваемых потребителем понятий в каком-то отношении (хотя и не обязательно на том же уровне специфичности, на котором сформулирован запрос). Рассмотрим поиск по различным специфическим кишечным микроорганизмам, вызывающим понос или дизентерию при белковой недостаточности или квашиоркоре. Данный запрос включает отношения между тремя отдельными понятиями: 1)определенные специфические кишечные микроорганизмы, 2) расстройство деятельности кишечника в форме поноса или дизентерии и 3) нарушения функций организма в форме белковой недостаточности или квашиоркора. Стратегия поиска для этого запроса была бы полной (исчерпывающей), если бы выдача документа осуществлялась только в тех случаях, когда он 1) заиндексирован термином «Белковая недостаточность» или «Квашиоркор»; 2) заиндексирован термином, отражающим наличие некоторого микроорганизма; 3) заиндексирован термином, отражающим понос или дизентерию. При такой полной формулировке запроса мы можем ожидать высокой точности поиска (т.е. большая часть найденных документов будет, вероятно, релевантной). С другой стороны, стратегия может быть слишком полной: она может требовать слишком многого, чтобы можно было ожидать, что какой-то релевантный документ действительно был заиндексирован с помощью всех понятий, на которые указывает потребитель. Ожидаемая полнота поиска будет более высокой для менее полной формулировки, скажем: Белковая недостаточность и Термины, относящиеся к поносу или Квашиоркор Полнота поискового предписания, очевидно, связана с уровнем координации (т.е. с числом совместно встречающихся терминов индексирования, требуемых для выдачи документа), но строго однозначного соответствия между полнотой и уровнем координации не может быть. Например, «Белковая недостаточность» и «Дизентерия» и «Кишечные микроорганизмы» является координацией трех терминов, исчерпывающей, или полной, в том смысле, что она охватывает все запрашиваемые потребителем соотносимые понятия. Однако эти понятия совершенно так же отражены в комбинации «Белковая недостаточность» и «Дизентерия, бактериальная», которая является координацией двух терминов. Более того, изменяя уровень координации, мы регулируем скорее специфичность, чем полноту поиска. Пусть запрашиваются материалы по «Метастатическому жировому некрозу как осложнению панкреатита». Формулировка «Панкреатит» и«Некроз» полная в том смысле, что она требует совместного появления двух специфицируемых понятий. Координация трех терминов - «Панкреатит» и«Некроз» и«Жировая ткань» является более специфичной по отношению к этому запросу. Очевидно, полные (исчерпывающие) формулировки приведут к потерям, в. то время как неполные формулировки будут вызывать шумы. Аналогично специфичные формулировки будут вызывать потери, а недостаточно специфичные приведут к шумам. Неспецифичный поиск не означает, что для специфичного термина А1 мы используем непосредственно следующий за ним более общий термин А на иерархическом дереве. Многие поиски могут быть неспецифичными в том смысле, что в них требуемый специфичный термин А1 заменяется термином В1, принадлежащим к совершенно другой иерархии. Другими словами, вместо поиска только по термину А1 лицо, осуществляющее его, производит обобщение в виде А1 или В1. Ясно, что при выборе поисковой стратегии опасен всякий догматизм. Не существует общезначимого «правильного» уровня общности. Однако всегда можно найти оптимальный уровень по отношению к поисковому требованию конкретного потребителя. С помощью детального анализа поисков, включающего исследование а) потерь, обусловленных специфичностью и / или полнотой стратегий, и б) шумов за счет недостаточной специфичности и / или полноты стратегий, мы можем помочь лицу, производящему поиск, решить, когда ему следует расширить поиск, каким способом лучше всего осуществить такое расширение и какие типы обобщения поиска не гарантируют получения ожидаемых результатов. |
Последнее изменение этой страницы: 2020-02-16; Просмотров: 109; Нарушение авторского права страницы