Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Лекция 10 Словарные информационные системы
Культурные проблемы, связанные с использованием классификационных ИПС, привели к созданию ИПС словарного типа, с обобщенным англоязычным названием search engines. Основная идея словарной ИПС — создать словарь из слов, встречающихся в документах Интернета, в котором при каждом слове будет храниться список документов, из которых взято данное слово. Если поиск слов в таком словаре выполняется быстро, то можно отказаться от услуг разработчиков классификаторов и от услуг систематизаторов, оставаясь один на один с авторами документов. К счастью, несмотря на обилие слов (и словоформ) в естественных языках, большинство из них употребляются нечасто, что было замечено ученым лингвистом Ципфом еще в конце 40-х годов нашего века. К тому же наиболее употребительные слова — это союзы, предлоги и артикли, т.е. слова, совершенно бесполезные при поиске информации. В результате словарь одной из самых крупных словарных ИПС Интернета — AltaVista — имеет объем всего лишь несколько Гбайт.
Поскольку слова в словаре упорядочены, поиск нужного слова может выполняться достаточно быстро — без последовательного просмотра. А наличие списков документов, в которых встречается искомое слово, позволяет ИПС выполнять операции с этими списками — их слияние, пересечение или вычитание (для наглядности списки документов изображены в виде овалов): Рис. 2 Логические операции с множествами документов, Логические операторы Вместо того, чтобы говорить " Список документов содержащих слово ' стол ' или документов, содержащих слово ' стул '", употребляются сокращенные выражения, приведенные на предыдущем рисунке. Дальнейшее сокращение эти выражения находят в языке запросов словарных ИПС: вместо " Найти список документов содержащих слово ' стол ' или документов, содержащих слово ' стул '", большинству словарных ИПС достаточно написать что-то вроде стол ИЛИ стул Союз ИЛИ в запросе к словарной ИПС выступает в роли ЛОГИЧЕСКОГО ОПЕРАТОРА, связывающего множества искомых документов. Словарные ИПС используют три логических оператора: ИЛИ, И и И-НЕ (" но без " ); как правило, эти операторы обозначаются одним из следующих способов:
Эти операторы имеют приоритет (прежде всего выполняется И-НЕ, затем — И, и лишь потом — ИЛИ), поэтому для составления сложных запросов могут использоваться скобки (исключение составляют лишь ИПС Go.Com и Google, которые вместо скобок применяют другие обозначения). Как правило, словарные ИПС Интернета предоставляют пользователям два интерфейса — режим " сложного запроса" (" advanced search " ), в котором доступны все логические операторы, и режим простого поиска, в котором, как правило, невозможно использование скобок, и, следовательно, можно использовать не все сочетания операторов. Правое усечение Давайте рассмотрим гипотетический пример поиска информации о столах. С учетом падежей слова " стол " и наших знаний о логических операторах, запрос к словарной ИПС мог бы выглядеть так: стол ИЛИ стола ИЛИ столу ИЛИ столе ИЛИ столом Хорошо, что это только одно слово, но писать такое уже довольно тоскливо. Западные ИПС, ориентированные на английский язык, предлагают простое решение: вместо слова можно написать его начало, заменив изменяемую часть звездочкой: стол* Формально говоря, звездочка заменяет любое количество символов, поэтому говорят, что она обозначает правое усечение. Называть обозначение " стол* " язык не поворачивается, поэтому для таких частей логических выражений запросов используется название ТЕРМИН. Запрос стол* отыщет и документы со словами " столовая ", " столешница ", " столоначальник " и даже " столб ". Такое явление — искусственная синонимия — может сильно мешать при поиске, однако его проявление зачастую невозможно предусмотреть заранее. От чего пытались убежать, переходя от использования классификационных к применению словарных ИПС — от изучения других культур — к тому вернулись с другой стороны: язык, на котором написаны искомые документы (а, следовательно, и культуру авторов этих документов) все равно приходится изучать. Для устранения искусственной синонимии необходимо читать найденные документы, которые образуют информационный шум, определять в них те термины, которые являются порожденными нами искусственными синонимами, и устранять их, модифицируя запрос: стол* И-НЕ (столова* ИЛИ столеш* ИЛИ столон* ИЛИ столб*...) Заметим, что в новом запросе нельзя написать " столов* " вместо " столова* " — пропадет родительный падеж множественного числа слова " стол "; точно также нельзя написать " столе* " вместо " столеш* " — пропадет предложный падеж слова " стол ". Таким образом, язык искомых документов необходимо знать не просто хорошо ; -) Две российские ИПС ( Апорт и Яндекс ) " знают" русскую грамматику (точнее, морфологию русского языка) и в словаре хранят только так называемую " нормальную форму " слова (для существительного — именительный падеж единственного числа). Эти системы допускают написание запроса на естественном языке, нормализуя термины запроса, тем самым существенно упрощая поиск в русском Интернете. Слова далекие и близкие Описанные возможности словарных ИПС, хотя и достаточно мощные, зачастую оказываются совершенно недостаточными для поиска даже очень простой информации. Попробуем решить следующую задачу: отыскать сведения о продаже металлических стульев: металлическ* И стул* Но этому запросу отвечает прейскурант торговой фирмы, продающей плетеный (вторая строка прейскуранта) и (178 строка прейскуранта). Оператор отыскивает документы, в которых искомые слова встречаются в любом месте! Для устранения этого недостатка некоторые ИПС хранят не просто список документов, в которых встречается слово, но и номер этого слова в конкретном документе. Это позволяет в языке запросов такой ИПС использовать оператор РЯДОМ, что решает поставленную задачу: металлическ* РЯДОМ стул* Многие ИПС не позволяют написать такой запрос — они не разрешают использовать термины с правым усечением совместно с оператором РЯДОМ, (только слова), но это ограничение постепенно снимается, — следите за информацией на конкретных ИПС. Оператор РЯДОМ в различных ИПС обозначается по-разному (он имеется в AltaVista, Lycos, Апорт и Яндекс и во всех этих ИПС используются разные обозначения). Более того, в разных ИПС он может иметь и несколько различный смысл. Так, AltaVista считает, что РЯДОМ — это не более чем через 10 слов в любом порядке, в то время как другие ИПС позволяют указывать требуемое расстояние между словами (ровно столько-то или не более чем столько-то). Lycos позволяет указывать расстояние и требуемый порядок слов. Апорт позволяет указывать расстояние между словами в словах; Яндекс — в словах и абзацах (с возможностью указать порядок следования слов). |
Последнее изменение этой страницы: 2019-03-29; Просмотров: 330; Нарушение авторского права страницы