Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


B. «Аналитический курьер» и «X-files»



Система разработана компанией «Ай-Теко». Компонент определения тональности текста реализует метод, основанный на словарях и правилах.

Данная система выдает пользователю массив размеченных предложений. В предложениях размечаются объекты тональности (при наличии таковых) и цепочка слов, несущая в себе тональность по отношению к ним. Кроме того, на основании найденных цепочек слов подсчитывается общая тональность для каждого предложения. Для подсчета общей тональности используется ряд специальных правил. Например, (для предложения «Доктор Смит вылечил больного гриппом»), есть правило, которое говорит, что сочетание позитивного глагола «вылечить» с негативной цепочкой (в данном случай «больной гриппом») приписывает позитив подлежащему глагола (в нашем примере — «доктору Смиту»). Тональность оценивается по тернарной шкале (позитивный/негативный/нейтральный).

Система работает в несколько этапов:

· предварительная обработка текста;

· выделение и классификация найденных слов;

· объединение найденных слов в связанные друг с другом цепочки;

· выделение объектов тональности.

Недостатки системы: отсутствие количественной оценки текста.

C.«Ваал»

Данная система предназначена для оценки «неосознаваемого эмоционального воздействия фонетической структуры текста и отдельных слов на подсознание человека». Работа системы основана на превращении текста в частотный словарь и отнесении некоторых слов к определенным психолингвистическим категориям.

Результат анализа выдается пользователю в виде набора оценок по ряду критериев, относящихся к данному тексту/слову («гладкий – шероховатый», «могучий – хилый» и т.д.).

Недостатки системы: система не производит полноценного эмоционального анализа текста, что ведет к сильной ограниченности применимости продукта. Кроме того, использование данного продукта людьми, не являющимися специалистами в области психолингвистики, не представляется возможным.

D. « RCOFactExtractor»

Система, разработанная компанией RCO, использует подход, основанный на правилах. Данная система учитывает синтаксическую структуру текста и взаимодействие различных типов слов.

Работа компонента происходит в пять этапов:

1. Распознавание всех упоминаний о целевом объекте во всех формах, включая полные, краткие и другие формы упоминаний.

2. Отсев и полный синтаксический разбор конструкций, в которых отражаются все события и признаки, связанные с целевым объектом.

3. Выделение и классификация тех позиций, в которых явно выражается тональность, и тех пропозиций, которые описывают эмоционально-коннотативные ситуации.

4. Для каждой пропозиции – принятие решения о тональности «позитив-негатив» с учетом тех мест, которые занимают в её составе эмоционально-коннотативные, тональные и нейтральные слова, средства выражения отрицания.

5. Оценка общей тональности текста на основе тональностей всех входящих в него пропозиций.

Для своей работы компонент использует модули синтаксического анализа текста и отождествления наименований, разработанные также в компании RCO.

Недостатки системы: отсутствие количественной оценки текста, что снижает возможности детализации в отслеживании и анализе тенденций в динамике оценок соответствующих исследуемых факторов.

Вывод :

Приведенные системы основаны на различных подходах к решению задачи и предназначены для использования в различных условиях. Каждая система имеет ряд преимуществ и недостатков и, следовательно, должна выбираться под прикладную задачу. Например, при необходимости анализа общей тональности коротких неструктурированных текстов (сообщений в социальной сети) разумнее всего будет использовать систему SentiStrength, а при социологических анализах записей блогов – систему «Аналитический Курьер».

Очевидно, ближе всего к сформулированной и обоснованной выше постановке задачи располагается последний из перечисленных проектов - «RCO Fact Extractor». Однако помимо того, что данная система является коммерческой, а, следовательно, и закрытой для корректировки, она не отвечает в полном объёме ни одному из перечисленных в постановке задачи пункту.

Таким образом, проведенный анализ показал, что требуемым функционалом не обладает ни одна из рассмотренных систем. В этой связи актуальной является задача разработки системы анализа тональности текстового контента, удовлетворяющая перечисленным выше требованиям.


Поделиться:



Последнее изменение этой страницы: 2019-06-09; Просмотров: 384; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.008 с.)
Главная | Случайная страница | Обратная связь