Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Информационно-поисковые языки
Использование естественного языка (ЕЯ) позволяет легко составлять поисковые образы большой семантической силы. Таким образом, использование естественного языка в качестве языка запросов имеет одно неоспоримое преимущество – с его помощью можно выразить практически любую мысль. Однако имеются не менее весомые недостатки [9]: громоздкость и неоднозначность. Первый недостаток отчасти устраняется автоматически при ограничении ЕЯ его подмножеством для необходимой предметной области. Второй, как правило, устраняется аналогично, поскольку любое понятие редко имеет несколько значений в рамках одной предметной области (случаи типа «емкость» – конденсатор и сосуд для хранения чего-либо). Однако, как правило, ЕЯ, ограниченный предметной областью, используется только как основа для создания ИПЯ. Единой теории построения ИПЯ не существует, т. к. при синтезе ИПЯ определяющей всегда является специфика предметной области, существует лишь устоявшая терминология. Элементы ИПЯ, участвующие в формировании сообщения: – правило; – алгоритм; – код; – алфавит. Алфавит ИПЯ – набор качественных признаков в виде определенных знаков, используемых для информационного общения на данном языке. Коды ИПЯ делятся на технические (для передачи формы сообщения) и семантические (для передачи содержания сообщения). Морфология ИПЯ – правила построения слов в данном языке. Разные ИПЯ имеют различную морфологию, хотя не исключена возможность построения разных языков по одним и тем же морфологическим правилам. Синтаксис ИПЯ – правила построения фраз при помощи словаря данного языка. Примером синтаксического правила может служить правило построения составных слов в УДК: на первое место ставится основной индекс, на второе – специальный определитель (точка–нуль) на третье – специальный определитель с дефисом; на четвертое – общий определитель с точки зрения аспекта (точка–нуль–нуль), на пятое – определители формы, места, времени. Словарь ИПЯ – полный набор слов данного языка с указанием их правописания. Словарь ИПЯ используется для: – перевода текстов с естественного языка на язык ИПС; – обеспечения возможности избыточного индексирования документов или информационных запросов; – установления соответствия между обозначением сущности и ее содержанием. Классификация ИПЯ приведена на рис. 1.3.
Иерархические ИПЯ – ИПЯ, в которых глубина раскрытия сущности и предмета увеличивается по мере нисхождения по иерархической лестнице, а дескриптор содержит символы всех вышестоящих дескрипторов. Иерархические ИПЯ считаются языками с жесткой структурой, изменять которую можно только путем расширения вниз. Достоинствами иерархических ИПЯ являются стабильность, простота формирования понятия и Простота управления уровнем детализации понятия. К недостаткам иерархических ИПЯ можно отнести негибкость и искусственную (не обязательно совпадающая с естественной) природу иерархии, что может привести к неоднозначности при поиске. Предметные ИПЯ характеризуются отсутствием жесткой структуры и определенного кода, их словарный состав состоит из терминов и фраз ЕЯ. ПОД может формироваться из одного или нескольких терминов ЕЯ. Фасетный ИПЯ – язык, в котором поисковый образ состоит из ряда характерных качественных признаков (категорий, аспектов, фасетов предмета), и каждый фасет в рамках предметной области может принимать различные значения. То есть любое понятие описывается набором фасетов, представляющим собой подмножество всего их множества, а каждый фасет содержит в себе некоторый термин предметной области из набора своих терминов (фокусов). В рамках фасета, как правило, организуется иерархическая классификация фокусов. Дескрипторные ИПЯ позволяют избежать неоднозначности ЕЯ путем обозначения любого термина уникальным дескриптором. Дескрипторные ИПЯ предназначены преимущественно для описания документов. Описание документа при помощи дескрипторного ИПЯ производится путем формирования из текста набора ключевых слов. Ключевыми называются слова, наиболее точно выражающие индивидуальные особенности текста. Дескрипторные ИПЯ основаны на идее о том, что ограниченным набором ключевых слов может быть выражено содержание любого документа. Ключевые слова используются в качестве дескрипторов. Из набора синонимичных ключевых слов выбирается наиболее характерное. Количество дескрипторов, используемых для составления ПОД, может быть индивидуальным для каждого документа в зависимости от точности, с которой данный набор характеризует данный документ. Для дескрипторных ИПС характерно наличие информационного и поискового массивов. Информационным называют массив документов. Поисковый массив может иметь прямую и инверсную организацию. При прямой организации в поисковом массиве хранятся ПОД документов информационного массива. При обработке запроса ПОЗ, составленный из дескрипторов, сравнивается со всеми ПОД поискового массива. Решение о соответствии принимается согласно критерию смыслового соответствия. При инверсной организации в поисковом массиве хранятся дескрипторы. Каждый дескриптор обладает расширяемым списком ссылок на документы, в которых он встречается. При обработке запроса составляются списки документов для каждого дескриптора, входящего в ПОЗ. Результат обычно формируется путем логического пересечения этих списков. Дескрипторная ИПС может быть построена эшелонировано. В этом случае в первый эшелон, как правило, попадают документы, в которых встречаются все дескрипторы, присутствующие в ПОЗ, а в последний – документы, в которых встречается хотя бы один дескриптор. Глубина эшелонирования выдачи зависит от того, что больше интересует пользователя: полнота или точность. К специальным относятся ИПЯ, которые в силу определяющего влияния предметной области не относятся однозначно к какой-либо из предыдущих групп, заимствуя черты некоторых из них. Специальными являются ИПЯ, специально разрабатываемые для специализированных ведомственных ИПС.
|
Последнее изменение этой страницы: 2019-06-09; Просмотров: 274; Нарушение авторского права страницы