Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Лекция 10 Словарные информационные системы



 

Культурные проблемы, связанные с использованием классификационных ИПС, привели к созданию ИПС сло­вар­но­го ти­па, с обобщенным англоязычным названием search en­gines. Основная идея словарной ИПС — создать словарь из слов, встречающихся в доку­мен­тах Интернета, в котором при каждом слове будет храниться список документов, из которых взято данное слово. Если поиск слов в таком словаре выполняется быстро, то мож­но отказаться от услуг разработчиков классификаторов и от услуг систематизаторов, оставаясь один на один с авторами документов.

К счастью, несмотря на обилие слов (и словоформ) в естественных языках, большинство из них употребляются нечасто, что было замечено ученым лингвистом Ципфом еще в кон­це 40-х годов нашего века. К тому же наиболее употребительные слова — это союзы, предлоги и артикли, т.е. слова, совершенно бесполезные при поиске информации. В ре­зультате словарь одной из самых крупных словарных ИПС Интернета — AltaVista — имеет объем всего лишь несколько Гбайт.

Документы со словом  " стол"
Документы со словом " стул"
Документы со словом  " стол", но без слова " стул"
 
Документы со словами  " стол" или " стул"  
Документы со словами  " стол" и " стул"  

Поскольку слова в словаре упорядочены, поиск нужного слова может выполняться дос­та­точно быстро — без последовательного просмотра. А наличие списков документов, в ко­то­рых встречается искомое слово, позволяет ИПС выполнять операции с этими списками — их слияние, пересечение или вычитание (для наглядности списки документов изоб­ра­же­ны в виде овалов):

Рис. 2 Логические операции с множествами документов,
выполняемые словарными ИПС



Логические операторы

Вместо того, чтобы говорить " Спи­сок до­ку­мен­тов со­дер­жа­щих сло­во ' стол ' или до­ку­мен­тов, со­дер­жа­щих сло­во ' стул '", употребляются сокращенные выражения, при­ве­денные на предыдущем рисунке. Дальнейшее сокращение эти выражения находят в язы­ке запросов словарных ИПС: вместо " Най­ти спи­сок до­ку­мен­тов со­дер­жа­щих сло­­во ' стол ' или до­ку­мен­тов, со­дер­жа­щих сло­во ' стул '", большинству словарных ИПС достаточно написать что-то вроде

стол ИЛИ стул

Союз ИЛИ в запросе к словарной ИПС выступает в роли ЛОГИЧЕСКОГО ОПЕРАТОРА, связывающего множества искомых документов. Словарные ИПС используют три логи­чес­ких оператора: ИЛИ, И и И-НЕ (" но без " ); как правило, эти операторы обозначаются одним из следующих способов:

Оператор Полное обозначение Сокращенное обозначение Обозначение при простом поиске (кроме российской ИПС Rambler )
ИЛИ OR | пробел
И AND & + (знак " плюс" )
И-НЕ AND NOT ! или &! или! & - (знак минус)

Эти операторы имеют приоритет (прежде всего выполняется И-НЕ, затем — И, и лишь по­том — ИЛИ), поэтому для составления сложных запросов могут использоваться скобки (исключение составляют лишь ИПС Go.Com и Google, которые вместо скобок применя­ют другие обозначения). Как правило, словарные ИПС Интернета предоставляют поль­зо­ва­телям два интерфейса — режим " сложного запроса" (" advanced search " ), в котором дос­тупны все логические операторы, и режим простого поиска, в котором, как правило, не­возможно использование скобок, и, следовательно, можно использовать не все сочетания операторов.

Правое усечение

Давайте рассмотрим гипотетический пример поиска информации о столах. С учетом падежей слова " стол " и наших знаний о логических операторах, запрос к словарной ИПС мог бы выглядеть так:

стол ИЛИ сто­ла ИЛИ сто­лу ИЛИ сто­ле ИЛИ сто­лом

Хорошо, что это только одно слово, но писать такое уже довольно тоскливо.

Западные ИПС, ориентированные на английский язык, предлагают простое решение: вмес­то слова можно написать его начало, заменив изменяемую часть звездочкой:

стол*

Формально говоря, звездочка заменяет любое количество символов, поэтому говорят, что она обозначает правое усечение. Называть обозначение " стол* " язык не повора­чи­ва­ет­ся, поэтому для таких частей логических выражений запросов используется название ТЕР­МИН.

Запрос

 стол*

отыщет и документы со словами " сто­ло­вая ", " сто­леш­ни­ца ", " сто­ло­на­чаль­ник " и да­же " столб ". Такое явление — искусственная синонимия — может сильно мешать при поис­ке, однако его проявление зачастую невозможно предусмотреть заранее.

От чего пытались убежать, переходя от использования классификационных к приме­не­нию словарных ИПС — от изучения других культур — к тому вернулись с другой стороны: язык, на котором написаны искомые документы (а, следовательно, и культуру авторов этих документов) все равно приходится изучать.

Для устранения искусственной синонимии необходимо читать найденные документы, ко­торые образуют информационный шум, определять в них те термины, которые являются порожденными нами искусственными синонимами, и устранять их, модифицируя зап­рос:

стол* И-НЕ (столова* ИЛИ столеш* ИЛИ столон* ИЛИ столб*...)

Заметим, что в новом запросе нельзя написать " столов* " вместо " столова* " — пропадет ро­дительный падеж множественного числа слова " стол "; точно также нельзя написать " столе* " вместо " столеш* " — пропадет предложный падеж слова " стол ". Таким образом, язык искомых документов необходимо знать не просто хорошо ; -)

Две российские ИПС ( Апорт и Яндекс ) " знают" русскую грамматику (точнее, морфологию русского языка) и в словаре хранят только так называемую " нормальную форму " слова (для существительного — именительный па­деж единственного числа). Эти системы допускают написание запроса на естественном языке, нормализуя термины запроса, тем самым существенно упрощая поиск в русском Интернете.

Слова далекие и близкие

Описанные возможности словарных ИПС, хотя и достаточно мощные, зачастую оказы­ва­ют­ся совершенно недостаточными для поиска даже очень простой информации. По­про­бу­ем решить следующую задачу: отыскать сведения о продаже металлических стульев:

ме­тал­ли­ческ* И стул*

Но этому запросу отвечает прейскурант торговой фирмы, продающей плетеный (вторая строка прейскуранта) и (178 строка прейскуранта). Оператор отыскивает документы, в ко­торых искомые слова встречаются в любом месте!

Для устранения этого недостатка некоторые ИПС хранят не просто список документов, в которых встречается слово, но и номер этого слова в конкретном документе. Это поз­во­ля­ет в языке запросов такой ИПС использовать оператор РЯ­ДОМ, что решает поставленную задачу:

ме­тал­ли­ческ* РЯ­ДОМ стул*

Многие ИПС не позволяют написать такой запрос — они не разрешают использовать тер­мины с правым усечением совместно с оператором РЯДОМ, (только слова), но это ограничение по­степенно снимается, — следите за информацией на конкретных ИПС.

Оператор РЯДОМ в различных ИПС обозначается по-разному (он имеется в AltaVista, Ly­cos, Апорт и Ян­декс и во всех этих ИПС используются разные обозначения). Более того, в раз­ных ИПС он может иметь и несколько различный смысл. Так, AltaVista считает, что РЯДОМ — это не более чем через 10 слов в любом порядке, в то время как другие ИПС позволяют указывать требуемое расстояние между словами (ровно столько-то или не более чем столько-то). Ly­cos позволяет указывать расстояние и требуемый порядок слов. Апорт позволяет указывать расстояние между словами в словах; Ян­декс — в словах и абзацах (с возможностью указать порядок следования слов).


Поделиться:



Последнее изменение этой страницы: 2019-03-29; Просмотров: 330; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.011 с.)
Главная | Случайная страница | Обратная связь