Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Автоматическое рубрицирование



Таким образом, рубрицирование представляет собой процесс (метод) трансляции документа с ЕЯ на ИПЯ типа библиотечно-библиографической классификации (рубрикатора) [5].

Методы автоматического рубрицирования

Словарь ИПЯ представляет собой базу знаний (БЗ). Процесс создания словаря сходен с процессом разработки БЗ для экспертной системы (ЭС). Наиболее часто применяемые модели БЗ – модели семантической сети и продукционная [5].

Модель семантической сети

Строится тезаурус в виде сети понятий и отношений между ними Основные этапы полуавтоматического синтеза тезауруса:

1. Автоматическая обработка большого объема документов при помощи программ морфологического и синтаксического анализа с целью выделения терминоподобных групп слов.

2. Исследование выделенных групп экспертами и принятие решений:

– о включении группы в тезаурус (группа в этом случае приобретает статус термина);

– о наличии синонимии для данного термина;

– о наличии прочих отношений для данного термина.

Кроме тезауруса, в информационный фонд системы рубрицирования могут включаться БД объектов предметной области (например, географическая, предприятий, организаций, персоналий и т. д.). Обобщающее отношение K позволяет организовать тезаурус в виде иерархической структуры.

Процесс рубрицирования состоит в выделении из документа опорных дескрипторов и отношений между ними с последующим сопоставлением их с описаниями рубрик [5].

Продукционная модель

Рубрицирование с использованием продукционной модели выполняется в соответствии со схемой, приведенной на рис. 2.2 [5].

БЗ представляет собой набор правил, определяющих понятия. В определение понятия входит набор слов и фраз, объединенных логическими отношениями, а также могут входить:

Рис. 2.2

– отношения следования, совместности между словами;

– веса и статистические характеристики слов.

Этапы процесса рубрицирования:

– выделение понятий из текста.

– принятие решения о принадлежности текста к рубрике.

Недостатки рубрицирования, основанного на знаниях, аналогичны недостаткам специализированных ЭС [5]:

– трудоемкость синтеза тезауруса;

– неуниверсальность тезауруса.

2.5.2. Рубрицирование, основанное на обучении по примерам

Эти методы основаны на обработке обучающих выборок, состоящих из документов, для которых указывается принадлежность к рубрикам.

Методы этой группы делятся на статистические и нейросетевые.

Статистические методы. Здесь используются понятия терминологического портрета рубрики и документа. В терминологический портрет входят термины и их веса. Процесс обучения (формирования портретов рубрик) сводится к составлению экспертом выборок для каждой рубрики. Основные критерии формирования выборки: минимизация размеров текстов, максимальная лингвистическая полнота, минимальная избыточность. Выделение терминов производится автоматически. При этом формируется матрица их весов wtr, где t – термин, r – рубрика.

Рубрицирование документа выполняется по некоторому решающему правилу, например, такому [5]: , где ft – частота встречаемости термина t в рассматриваемом документе; kr – пороговое значение для r.

Вектор порогов рубрик (kr) также формируется при обучении путем применения решающего правила к обучающей выборке и оценки результата с точки зрения критериев точности и полноты. При этом могут использоваться как математические методы, так и эмпирика.

Достоинствами статистических методов являются универсальность, наличие аппарата количественной оценки релевантности документов рубрикам, высокое быстродействие. Недостатком является невысокое качество рубрицирования, по сравнению с методами, основанными на знаниях [5].

Нейросетевые методы. Как очевидно следует из названия, методы этой группы основаны на использовании нейронных сетей (НС), принципы функционирования которых подлежат рассмотрению в рамках отдельных дисциплин. Обучение нейросетевой системы проиллюстрировано рис. 2.3 [5].

Рис. 2.3

Определение вероятности релевантности текста рубрике выполняется в соответствии с рис. 2.4.

Рис. 2.4

Основным недостатком является невозможность обоснования поведения НС, достоинством – более высокое качество, чем у статистических методов [5].


Поделиться:



Последнее изменение этой страницы: 2019-06-09; Просмотров: 240; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.013 с.)
Главная | Случайная страница | Обратная связь