Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Автоматическое рубрицирование
Таким образом, рубрицирование представляет собой процесс (метод) трансляции документа с ЕЯ на ИПЯ типа библиотечно-библиографической классификации (рубрикатора) [5]. Методы автоматического рубрицирования Словарь ИПЯ представляет собой базу знаний (БЗ). Процесс создания словаря сходен с процессом разработки БЗ для экспертной системы (ЭС). Наиболее часто применяемые модели БЗ – модели семантической сети и продукционная [5]. Модель семантической сети Строится тезаурус в виде сети понятий и отношений между ними Основные этапы полуавтоматического синтеза тезауруса: 1. Автоматическая обработка большого объема документов при помощи программ морфологического и синтаксического анализа с целью выделения терминоподобных групп слов. 2. Исследование выделенных групп экспертами и принятие решений: – о включении группы в тезаурус (группа в этом случае приобретает статус термина); – о наличии синонимии для данного термина; – о наличии прочих отношений для данного термина. Кроме тезауруса, в информационный фонд системы рубрицирования могут включаться БД объектов предметной области (например, географическая, предприятий, организаций, персоналий и т. д.). Обобщающее отношение K позволяет организовать тезаурус в виде иерархической структуры. Процесс рубрицирования состоит в выделении из документа опорных дескрипторов и отношений между ними с последующим сопоставлением их с описаниями рубрик [5]. Продукционная модель Рубрицирование с использованием продукционной модели выполняется в соответствии со схемой, приведенной на рис. 2.2 [5]. БЗ представляет собой набор правил, определяющих понятия. В определение понятия входит набор слов и фраз, объединенных логическими отношениями, а также могут входить:
– отношения следования, совместности между словами; – веса и статистические характеристики слов. Этапы процесса рубрицирования: – выделение понятий из текста. – принятие решения о принадлежности текста к рубрике. Недостатки рубрицирования, основанного на знаниях, аналогичны недостаткам специализированных ЭС [5]: – трудоемкость синтеза тезауруса; – неуниверсальность тезауруса. 2.5.2. Рубрицирование, основанное на обучении по примерам Эти методы основаны на обработке обучающих выборок, состоящих из документов, для которых указывается принадлежность к рубрикам. Методы этой группы делятся на статистические и нейросетевые. Статистические методы. Здесь используются понятия терминологического портрета рубрики и документа. В терминологический портрет входят термины и их веса. Процесс обучения (формирования портретов рубрик) сводится к составлению экспертом выборок для каждой рубрики. Основные критерии формирования выборки: минимизация размеров текстов, максимальная лингвистическая полнота, минимальная избыточность. Выделение терминов производится автоматически. При этом формируется матрица их весов wtr, где t – термин, r – рубрика. Рубрицирование документа выполняется по некоторому решающему правилу, например, такому [5]: , где ft – частота встречаемости термина t в рассматриваемом документе; kr – пороговое значение для r. Вектор порогов рубрик (kr) также формируется при обучении путем применения решающего правила к обучающей выборке и оценки результата с точки зрения критериев точности и полноты. При этом могут использоваться как математические методы, так и эмпирика. Достоинствами статистических методов являются универсальность, наличие аппарата количественной оценки релевантности документов рубрикам, высокое быстродействие. Недостатком является невысокое качество рубрицирования, по сравнению с методами, основанными на знаниях [5]. Нейросетевые методы. Как очевидно следует из названия, методы этой группы основаны на использовании нейронных сетей (НС), принципы функционирования которых подлежат рассмотрению в рамках отдельных дисциплин. Обучение нейросетевой системы проиллюстрировано рис. 2.3 [5].
Определение вероятности релевантности текста рубрике выполняется в соответствии с рис. 2.4.
Основным недостатком является невозможность обоснования поведения НС, достоинством – более высокое качество, чем у статистических методов [5]. |
Последнее изменение этой страницы: 2019-06-09; Просмотров: 281; Нарушение авторского права страницы