Лекция 10 Словарные информационные системы

⇐ ПредыдущаяСтр 13 из 18Следующая ⇒

Культурные проблемы, связанные с использованием классификационных ИПС, привели к созданию ИПС словарного типа, с обобщенным англоязычным названием search engines. Основная идея словарной ИПС — создать словарь из слов, встречающихся в документах Интернета, в котором при каждом слове будет храниться список документов, из которых взято данное слово. Если поиск слов в таком словаре выполняется быстро, то можно отказаться от услуг разработчиков классификаторов и от услуг систематизаторов, оставаясь один на один с авторами документов.

К счастью, несмотря на обилие слов (и словоформ) в естественных языках, большинство из них употребляются нечасто, что было замечено ученым лингвистом Ципфом еще в конце 40-х годов нашего века. К тому же наиболее употребительные слова — это союзы, предлоги и артикли, т.е. слова, совершенно бесполезные при поиске информации. В результате словарь одной из самых крупных словарных ИПС Интернета — AltaVista — имеет объем всего лишь несколько Гбайт.

Документы со словом " стол"

Документы со словом " стул"

Документы со словом " стол", но без слова " стул"

Документы со словами " стол" или " стул"

Документы со словами " стол" и " стул"

Поскольку слова в словаре упорядочены, поиск нужного слова может выполняться достаточно быстро — без последовательного просмотра. А наличие списков документов, в которых встречается искомое слово, позволяет ИПС выполнять операции с этими списками — их слияние, пересечение или вычитание (для наглядности списки документов изображены в виде овалов):

Рис. 2 Логические операции с множествами документов,
выполняемые словарными ИПС

Логические операторы

Вместо того, чтобы говорить " Список документов содержащих слово ' стол ' или документов, содержащих слово ' стул '", употребляются сокращенные выражения, приведенные на предыдущем рисунке. Дальнейшее сокращение эти выражения находят в языке запросов словарных ИПС: вместо " Найти список документов содержащих слово ' стол ' или документов, содержащих слово ' стул '", большинству словарных ИПС достаточно написать что-то вроде

стол ИЛИ стул

Союз ИЛИ в запросе к словарной ИПС выступает в роли ЛОГИЧЕСКОГО ОПЕРАТОРА, связывающего множества искомых документов. Словарные ИПС используют три логических оператора: ИЛИ, И и И-НЕ (" но без " ); как правило, эти операторы обозначаются одним из следующих способов:

Оператор	Полное обозначение	Сокращенное обозначение	Обозначение при простом поиске (кроме российской ИПС Rambler )
ИЛИ	OR	\|	пробел
И	AND	&	+ (знак " плюс" )
И-НЕ	AND NOT	! или &! или! &	- (знак минус)

Эти операторы имеют приоритет (прежде всего выполняется И-НЕ, затем — И, и лишь потом — ИЛИ), поэтому для составления сложных запросов могут использоваться скобки (исключение составляют лишь ИПС Go.Com и Google, которые вместо скобок применяют другие обозначения). Как правило, словарные ИПС Интернета предоставляют пользователям два интерфейса — режим " сложного запроса" (" advanced search " ), в котором доступны все логические операторы, и режим простого поиска, в котором, как правило, невозможно использование скобок, и, следовательно, можно использовать не все сочетания операторов.

Правое усечение

Давайте рассмотрим гипотетический пример поиска информации о столах. С учетом падежей слова " стол " и наших знаний о логических операторах, запрос к словарной ИПС мог бы выглядеть так:

стол ИЛИ стола ИЛИ столу ИЛИ столе ИЛИ столом

Хорошо, что это только одно слово, но писать такое уже довольно тоскливо.

Западные ИПС, ориентированные на английский язык, предлагают простое решение: вместо слова можно написать его начало, заменив изменяемую часть звездочкой:

стол*

Формально говоря, звездочка заменяет любое количество символов, поэтому говорят, что она обозначает правое усечение. Называть обозначение " стол* " язык не поворачивается, поэтому для таких частей логических выражений запросов используется название ТЕРМИН.

Запрос

стол*

отыщет и документы со словами " столовая ", " столешница ", " столоначальник " и даже " столб ". Такое явление — искусственная синонимия — может сильно мешать при поиске, однако его проявление зачастую невозможно предусмотреть заранее.

От чего пытались убежать, переходя от использования классификационных к применению словарных ИПС — от изучения других культур — к тому вернулись с другой стороны: язык, на котором написаны искомые документы (а, следовательно, и культуру авторов этих документов) все равно приходится изучать.

Для устранения искусственной синонимии необходимо читать найденные документы, которые образуют информационный шум, определять в них те термины, которые являются порожденными нами искусственными синонимами, и устранять их, модифицируя запрос:

стол* И-НЕ (столова* ИЛИ столеш* ИЛИ столон* ИЛИ столб*...)

Заметим, что в новом запросе нельзя написать " столов* " вместо " столова* " — пропадет родительный падеж множественного числа слова " стол "; точно также нельзя написать " столе* " вместо " столеш* " — пропадет предложный падеж слова " стол ". Таким образом, язык искомых документов необходимо знать не просто хорошо ; -)

Две российские ИПС ( Апорт и Яндекс ) " знают" русскую грамматику (точнее, морфологию русского языка) и в словаре хранят только так называемую " нормальную форму " слова (для существительного — именительный падеж единственного числа). Эти системы допускают написание запроса на естественном языке, нормализуя термины запроса, тем самым существенно упрощая поиск в русском Интернете.

Слова далекие и близкие

Описанные возможности словарных ИПС, хотя и достаточно мощные, зачастую оказываются совершенно недостаточными для поиска даже очень простой информации. Попробуем решить следующую задачу: отыскать сведения о продаже металлических стульев:

металлическ* И стул*

Но этому запросу отвечает прейскурант торговой фирмы, продающей плетеный (вторая строка прейскуранта) и (178 строка прейскуранта). Оператор отыскивает документы, в которых искомые слова встречаются в любом месте!

Для устранения этого недостатка некоторые ИПС хранят не просто список документов, в которых встречается слово, но и номер этого слова в конкретном документе. Это позволяет в языке запросов такой ИПС использовать оператор РЯДОМ, что решает поставленную задачу:

металлическ* РЯДОМ стул*

Многие ИПС не позволяют написать такой запрос — они не разрешают использовать термины с правым усечением совместно с оператором РЯДОМ, (только слова), но это ограничение постепенно снимается, — следите за информацией на конкретных ИПС.

Оператор РЯДОМ в различных ИПС обозначается по-разному (он имеется в AltaVista, Lycos, Апорт и Яндекс и во всех этих ИПС используются разные обозначения). Более того, в разных ИПС он может иметь и несколько различный смысл. Так, AltaVista считает, что РЯДОМ — это не более чем через 10 слов в любом порядке, в то время как другие ИПС позволяют указывать требуемое расстояние между словами (ровно столько-то или не более чем столько-то). Lycos позволяет указывать расстояние и требуемый порядок слов. Апорт позволяет указывать расстояние между словами в словах; Яндекс — в словах и абзацах (с возможностью указать порядок следования слов).

⇐ Предыдущая 8 9 10 11 121314 15 16 17 Следующая ⇒

Последнее изменение этой страницы: 2019-03-29; Просмотров: 330; Нарушение авторского права страницы