Фундамент синтаксического анализа

Структура системы синтаксического анализатора текста и используемая методика анализа текста

Разбор текста подразделяется на 4 этапа:

1. Графематический анализ (анализ структуры текста). На данном этапе производится анализ структуры текста, выделяются слова и словосочетания, аббревиатуры, знаки препинания и другие устоявшиеся структуры.

2. Фрагментационный анализ. В предложении выделяются синтаксические единства (фрагменты) больших или равных словосочетанию (синтаксической группе) и устанавливаются иерархии на множестве этих единств

. Морфологический анализ. Анализ словообразования.

. Синтаксический анализ. Проверка синтаксиса предложений. Разбор на структурные составляющие.

Рис. 2.1. Общая схема модулей ССА и их взаимодействия

Для того, чтобы понять важность и необходимость этих шести этапов разбора, рассмотрим их более подробно.

Графематический анализ

Общее описание

Данный этап генерирует выходную информацию, необходимую для дальнейшей обработки при помощи морфологического, фрагментационного и синтаксического анализаторов. В задачу графематического анализа входят:

1. Разделение входного текста на слова, разделители и т.д.

2. Сборка слов, написанных в разрядку;

. Выделение устойчивых оборотов, не имеющих словоизменительных вариантов;

. Выделение дат в цифровых форматах;

. Выделение Ф.И.О. (фамилия, имя, отчество), когда имя и отчество написаны инициалами;

. Выделение электронных адресов;

. Выделение предложений из входного текста;

. Выделение абзацев, заголовков, примечаний.

Входные и выходные данные

На вход графематике подается файл текста в Windows-кодировке. На выходе графематика строит таблицу, состоящую из двух столбцов. В первом столбце стоит некоторый кусок входного текста (выделенный по правилам, о которых мы скажем ниже), во втором столбце стоят графематические дескрипторы, характеризующие этот кусок текста. Например, из текста «Иван спал» будет построена таблица из трех

Кусок входного текста	Графематические дескрипторы
Иван	ЛЕ Бб ПРД1
_	РЗД ПРБ
спал	ЛЕ бб ПРД2

В первый столбец всегда помещается часть входного текста, если эта часть не является последовательностью из мягких разделителей (пробел, табуляция). В последнем случае используются другие символы, номера которых включены в описание на языке idl.

Графематические дескрипторы

Опишем теперь все графематические дескрипторы. У каждого графематического дескриптора есть два названия: кириллическое и латинское. Первое используется во втором столбце графематической таблице, второе внутри программы. Сначала приведем главные дескрипторы, один из которых обязательно должен присутствовать на каждой строке графематической таблицы.

Кир. Название	Объяснение	Примеры
ЛЕ	русская лексема, присваивается последовательностям, состоящим из кириллицы	Иван
ИЛЕ	иностранная лексема, присваивается последовательностям из латиницы	John
РЗД	разделитель.	«*', '=', '_'
ЗПР	знак препинания, присваивается последовательностям, состоящим из одинаковых знаков препинания	«.», ' [', ']', ' (', ')', '-', ': ', '; '
ЦК	цифровой комплекс, присваивается последовательностям, состоящим из цифр	1234
ЦБК	цифро-буквенный комплекс, присваивается последовательностям, состоящим из цифр и букв	34h
???	сложный узел, присваивается последовательностям, не обладающим вышеперечисленными признаками

Разновидности дескриптора РЗД

Кир. Название	Объяснение
ПРБ	строка пробелов или табуляций
КСТ	признак конца строки
ПАР	символ параграфа
ПС	нулевой символ

Разновидности дескриптора ЗПР

Кир. Название	Объяснение	Примеры
ОТК	открывающая скобка	' {', ' [', '('
ЗАК	закрывающая скобка	'}', ']', ')'
ДЕФ	дефис	-

Разновидности дескриптора ЗПР и РЗД

Кир. Название	Объяснение
ДЗПР	последовательность одинаковых символов, длина которой больше 20
МНЖ	последовательность одинаковых символов, длина которой больше 1

Разновидности дескриптора ЛЕ и ИЛЕ

Кир. Название	Объяснение	Примеры
бб	признак того, что все символы лексемы - малые	мама
Бб	признак того, что первый символ лексемы - большой;	Мама
ББ	признак того, что все символы лексемы - большие	МАМА

Теперь опишем дескрипторы, которые появляются на строке в зависимости от контекста, т.е. они вычисляются не только из текущей строки, но и из номера текущей строки и строк, которые находятся выше и ниже вычисляемой.

Контекстные дескрипторы

Кир. Название	Объяснение	Примеры
НАЧ	ставится на начале текста (входного файла), т.е. всегда стоит на нулевой строке таблице. Причем, важно сказать, что нулевая строка таблицы используется как служебная (содержимое первого столбца нулевой строки не входит во входной текст)
КФР	ставится на конце фразы. Концом фразы считается только»; ».
ПРД1	начало предложения
ПРД2	конец предложения
ИМ?	признак того, что лексема, возможно, является частьюимени собственного. Присваивается лексеме, начинающейся с большой буквы и не имеющей перед собой символа конца предложения.
ПП	ставится на начале пункта перечисления
АБЗ	ставится на начале абзаца
ОБ1	ставится на начале оборота	типа «во взаимодействии с»
ОБ2	ставится на конце оборота
ФИ1	ставится на начале Ф.И.О.	типа «Иванов И.И.»
ФИ2	ставится на конце Ф.И.О.
ДТ2	ставится на конце даты
РЕ1	было использовано для офиц. текстов
РЕ2	было использовано для офиц. текстов
ЧПТ1	начало числа с плавающей точкой	111.111
ЧПТ2	конец числа с плавающей точкой
ЭА1	начало электронного адреса	ftp.com.com
ЭА2	конец электронного адреса
АБ1	начало сокращения	и т.п.
АБ2	конец сокращение

Кроме этого, используются дескрипторы, относящиеся к макросинтаксическому анализу (анализу расположения абзацев, заголовков). В макросинтаксическом анализе абзацы, заголовки и т.д. называются условно предложениями (УП). Макросинтаксические дескрипторы ставятся на конце УП в зависимости от типа УП.

Кир. Название	Объяснение
УП?	ставится на конце УП, тип которого не определен
УП	ставится на конце простого УП
Заг	ставится на конце заголовка
прим	ставится на конце УП, заключенного в скобки
УПввод	ставится на конце УП, заканчивающегося на двоеточие
Док	ставится на нулевой строке графематической таблицы

Деление на предложения

Этот алгоритм работает на графематике, поскольку на результаты его работы опирается макросинтаксический анализ. На вход алгоритма подается два числа StartPos и EndPos, которые обозначают первую и последнюю строки входного текста. На начале предложения алгоритм ставит помету ПРД1, на конце - ПРД2.

Программа ищет конец предложения (ПРД2), а потом после него ищет начало предложения (ПРД1). Алгоритм основывается на следующих постулатах:

1. Начало текста совпадает с началом первого предложения, конец текста - с концом последнего.

2. Предложение всегда начинается с большой буквы;

. Предложение не бывает больше одного абзаца.

. Предложение не может состоять только из знаков препинания.

Это означает, что некоторые знаки препинания, если они не будут отнесены к предыдущему предложению, могут остаться вне предложений. Например,

«Мама мыла раму», здесь ПРД1 будет стоять на Мама, а не на открывающей кавычке.

На самом деле, все дальнейшие анализаторы (постморфология, синтаксис) используют в своей работе только помету ПРД2, что означает, что текст разбивается полностью, все строки оказываются охваченными. Помета ПРД1 нужна лишь только для нужд графематики.

Определим вспомогательный примитив IsSentenceEndMark. На вход подается номер строки. Функция возвращает истину, если эта строка содержит символ»? », "! », ».» или многоточие

Определим вспомогательный примитив IsSentenceEndSeq. На вход подается номер строки. Функция возвращает истину в двух следующих случаях:

1. Если для этой строки верна функция IsSentenceEndMark; и контактно справа нет закрывающей кавычки (если предложение закавычено, закрывающая кавычка входит в это предложение);

2. Если строка является закрывающей кавычкой, а контактно слева стоит строка, для которой верно IsSentenceEndMark.

Программа делает следующее:

1. Проходит все знаки препинания в начале текста и ставит первому слову помету ПРД1.

2. Пусть i - текущая строка между StartPos и EndPos.

. Если на строке i стоит помета начала абзаца, тогда нужно пройти назад все пробелы и длинные разделители (ДЗПР) и дойти до конца предыдущего абзаца. Если в конце абзаца (до первого слова) стоит строка, которая удовлетворяет IsSentenceEndSeq, тогда нужно поставить ПРД2 этой строке, иначе нужно поставить ПРД2 на конец предыдущего абзаца.

. Если на строке i стоит макросинтаксическая помета УП, тогда нужно сделать то же самое, что и в пункте 3, только надо учесть, что помета УП ставится на конце абзаца, а не начале (как в пункте 3).

. Если до начала текущего предложений стояла открывающая скобка, и текущая строка указывает на слово до соотв. закрывающей скобки, тогда нужно поставить ПРД2 на закрывающую скобку, а текущую строку сместить на ближайшее после закрывающей скобки слово.

. Если текущая строка удовлетворяет функции IsSentenceEndSeq и не входит в графематические группы (ФИ1-ФИ2, ДТ1-ДТ2 и т.д.) не последним словом, тогда проходим все знаки препинания от текущей строки. Проверяем, что знак препинания, который заканчивает предложения, не должен стоять в самом начале строки. Далее ищем первое слово от текущей строки и считаем его началом нового предложения.

Этот алгоритм работает избыточно, это означает, что он иногда ставит пометы ПРД2 и ПРД1 по многу раз на одной строке. Например, в конце абзаца ПРД2 может быть поставлена по пп 3. 4. и 6.

2.3
Фрагментационный анализ

Общие положения

Цель анализа

Задача фрагментационного анализа состоит в выделении в предложении синтаксических единств (фрагментов) больших или равных словосочетанию (синтаксической группе) и в установлении иерархии на множестве этих единств, не используя информации о модели управления. Иерархия отражает тот факт, что в предложении некоторые фрагменты синтаксически зависимы от других.

Мотивировка

Важная особенность фрагментов заключается в том, что их границы не пересекают синтаксические связи, соединяющие отдельные слова или словосочетания. Таким образом, при успешной работе фрагментационного анализа перед синтаксическим исключается возможность построения большого числа неправильных синтаксических связей, которые допускаются морфологией и синтаксисом.

Объекты анализа

Входные данные

На вход фрагментационного анализа поступает текст, разбитый на предложения. Каждое предложение разбито на слова и знаки препинания. Каждому слову приписана морфологическая информация (все возможные пары < грамматическая характеристика, лемма>, которым удовлетворяет слово. Подробнее смотри 3.4). При некоторых словах имеются графематические пометы пометы: начало / конец числового, букво-числового комплекса. Подробнее в 3.2.

Выходные данные

На выходе - текст, состоящий из предложений, разбитых на линейно неразрывные фрагменты. На фрагментах установлена иерархия, т.е. про каждый фрагмент известно, какие фрагменты в него непосредственно вложены и в какие он непосредственно вложен. Каждому фрагменту приписано множество типов и список союзов и союзных слов, входящих в фрагмент.

Структура фрагмента

Структура фрагмента устроена следующим образом:

Тип фрагмента

Глагол в личной форме, Краткое причастие, Краткое прилагательное, Предикативное слово, Причастие, Деепричастие, Инфинитив, Вводное слово, Пустыха.

Левая граница, Правая граница

Знаки препинания, стоящие слева и справа от фрагмента, и сочинительные союзы без знака препинания.

Союз

Неподчинительный союз, Подчинительный союз.

Все слова, стоящие в начале фрагмента, которые могут быть союзом, союзным словом или другой скрепой. При каждом таком «союзе» указывается, подчинительный он или нет.

«Который», «Чей»

Наличие в фрагменте лексемы чей, какой или который.

Алгоритм работы анализа

Порядок применения правил

Расстановка границ

По всем знакам препинания и сочинительным союзам без запятой проводятся границы фрагментов. Исключения:

1. Граница не проходит по тем знакам препинания, которые входят в состав определенных графематическим анализом единиц (сокращения, дробные числа, букво-числовые комплексы и др.);

2. В том случае, если несколько знаков препинания идут подряд, по ним проходит одна граница. (Не строится фрагментов, не содержащих ни одного слова).

Правило о двух предикатах в одной клаузе

Список глаголов ГС = {давать, становиться, оказаться}

Список значений частей речи, которые могут принимать предикаты

ПС = {VERB (гл. в личн. форме), ADVERB_PARTICIPLE (деепричастие), ADJ_SHORT (кр. прил.), PARTICIPLE_SHORT (кр. прич.), PREDK (предикатив)}

В одной клаузе не может находиться две словоформы, все омонимы которой ПС & ГС. В случаях, когда возникает такая ситуация (опечатка или ошибка морфологии), перед вторым предикатом восстанавливается запятая. Данное правило работает внутри правила расстановки границ и учитывает информацию об аналитических формах. Примеры для клауз исключений, содержащих словоформы из ГС: «давайте будем дружить», «Ему там могло бы за это время стать совсем скучно» и т.д.

Алгоритм интерпретации клауз с тире и восстановления тире в клаузах с нулевым Копулом, написанный для Синтаксиса

Правило 1.

Если мы видим тире, то идем от него направо и налево. Пусть С1 - клауза слева от тире, а С2 - клауза справа. Осуществим следующую проверку: ищем в С1 и в С2 глагол в личной форме или предикатив, если находим, то алгоритм обрывается.

Правило 2.

Если непосредственно слева от тире стоит запятая, (дом, построенный на холме, - большой), то это говорит о конце причастного оборота (P1) либо деепричастного, либо оборота с вершиной «который», либо вводного слова, мы ищем его начало (вершины «причастие», «деепричастие», «который», «вводное слово»), и группу (слово), которая им управляет (R1). Затем мы объединяем R1, P1, C2 в одну клаузу «тире».

Правило 3.

Восстановление тире.

Работа производится на этапе первоначальной фрагментации. Мы имеем первоначальный фрагмент.

Если фрагмент не «Пустыха», то мы выходим из работы алгоритма. Если фрагмент имеет вариант «Пустыха», то мы все равно выходим из работы алгоритма.

Алгоритм не восстанавливает тире в клаузах с двумя инфинитивами («жить все равно что родине служить») по той причине, что случаев, требующих восстановление тире, много меньше, чем случаев, где восстановленное тире - ошибка («Он еще поигрался с этой мыслью, прежде чем позволить ей удалиться.»)

случай (тип клаузы ТИРЕ)

Определяем в составе:

Таблица 1

Первое слово	Второе слово	Пример
С, им.	С/МС, им.	«маша красавица»
С, им.	П, им	«Маша красивая»
МС, им	С/МС, им	«Она красавица»
МС, им	П, им	«Она красивая»
«это»	С/МС, им.,	«Это Маша»
«у»+С/МС, рд	С/МС, им	«У соседей ссора»

Дополнительные условия:

1. Прилагательное может стоять только справа от существительного или местоимения.

2. Существительное с большой буквы может стоять только слева (кроме случаев с «это» и «у+рд»).

. Все части речи неомонимичны, в том числе не должно быть падежной омонимии (типа «глазок» - С, ед. им., или С, мн. рд), за исключением случая омонимии С, им, ед, но, С, вн, ед, но (стол - стол) и омонимии С ед, мн, им (дело-дела). В противном случае алгоритм обрывается.

. Тире не может восстанавливаться непосредственно перед запятой и другими знаками препинания.

. Тире не восстанавливается, если в одной из клауз есть инфинитив, даже если он омоним («вести свое хозяйство на крестьянский лад»). Если состав фрагмента определен согласно таблице 1, то во фрагменте восстанавливаем тире и тип фрагмента становится «ТИРЕ». Если мы имеем «это» + С им, ср» и хотя бы еще один претендент на восстановление тире по вышеуказанным правилам («это окно белое»), то мы после «это» тире не восстанавливаем.

. Если в клаузе есть предлог («покушение на жизнь», «в стол рукопись»), то тире не восстанавливается, за исключением предлога «у» («Ссора у соседей»)

. В случаях, требующих восстановления тире, последнее восстанавливается после первого слова («Покушение - по-человечески жизнь.»)

. В клаузе не может восстанавливаться больше одного тире. В случае, если одно тире уже есть или восстановилось, то процедура обрывается. (тире не строится после «это» в примере «Мир - это сон»)

К МС мы приравниваем здесь также местоименные прилагательные «один», «каждый», «другой», «тот».

случай (тип клаузы КОПУЛ)

Таблица 2

С, им. +

как словно будто что точно как будто

С, им. «Иван что герой»

Корпус примеров.

Там, где есть тире, Синтаксис именует клаузу «ТИРЕ», где тире нет, там оно восстанавливается и Синтаксис именует клаузу «ТИРЕ». Примеры, выделенные жирным шрифтом, не обрабатываются в соответствии с указанными после них правилами.

«Петя - человек»

« вести свое хозяйство на крестьянский лад» (см правило 5)

«жить все равно что родине служить» (см правило 3)

«дом, построенный на холме, - большой»

« Вчера в лесу мы работали старой пилой, а сегодня во дворе - новой». Определение типа фрагмента

Типом фрагмента может быть ровно одно значение из списка. Начиная с первого значения из списка, по порядку проверяется есть ли в данном фрагменте слово этой части речи. Если такое слово найдено и у него нет омонимов других частей речи, то дальнейшие поиски прекращаются и тип фрагмента - значение, на котором остановились. Если для данного значения из списка не нашлось неомонимичных (с точностью до части речи) подходящих слов, но есть омонимичные, тогда для фрагмента не устанавливается однозначно тип, а постулируется несколько вариантов, которые либо уничтожатся на уровне семантики, либо останутся в выходной структуре.

Пример: на этот раз она не права

Для этого фрагмента есть два варианта:

1. Тип фрагмента - краткое прилагательное (права - ж.р., ед. ч. от правый)

2. Тип фрагмента - пустыха (права - и.п./в.п. мн. ч.; р.п. ед. ч. от право)

Пример: мои права забрали в милиции

Для этого фрагмента тип определяется однозначно, т.к. забрали - неомонимичный глагол в личной форме. Глагол в личной форме стоит в списке на первом месте, дальнейшие поиски возможных вершин фрагмента не ведутся.

Алгоритм выявления ВВОДНЫХ

Проверка клаузы на наличие вводных слов.

Если найдено слово из списка 1 вводных слов (см. ниже), при этом оно ограничено с обеих сторон какими-либо знаками препинания из следующих:

1. запятая,

2. точка,

. вскл. знак,

. вопр. знак,

. точка с запятой,

. тире,

. двоеточие,

. начало предложения (Бб),

. конец предложения,

. кавычки.

То это слово «ВВОДН»

Дополнительное правило:

Если слева от вводного слова стоит сочинительный союз или частица, не отделенные от него знаком препинания, то они включаются в клаузу «ВВОДН». («Она двинулась в путь, и наверно, быстро бы достигла цели, если бы не гроза.»)

Работа с фрагментами

В правилах обработки фрагментов может использоваться как стандартная информация (см. структура фрагмента), так и сведения об отдельных словах.

Морфологический анализ

синтаксический морфологический текст графематический

Данный блок позволяет получить морфологическую информацию о словах в тексте.

Заключение

В ходе практической работы была разработан алгоритм синтаксического анализа русскоязычных текстов база данных синтаксических правил русского языка, а так же база данных синтаксических правил. В данной программе предусмотрена печатная форма отчетности. В дальнейшем этот алгоритм и база данных могут пригодиться для разработки синтаксического анализатора текста.

Список литературы

1. Синтаксис современного русского языка. - http: //www.hi-edu.ru/e-books/xbook089/01/part-002.htm

2. Автоматическая обработка текста. - http: //aot.ru/docs/synan.html

3. Гладкий А.В. Синтаксические структуры естественного языка в автоматизированных системах общения. М., 1985 г.

4. Панкратов Д.В., Гершензон Л.М. Описание синтаксического анализа в системе Диалинг. -, 1999.

Фундамент синтаксического анализа

Все языковые средства, которыми располагает система для определения синтаксических понятий, являются либо свойствами самого объекта, т.е. предложения естественного языка, либо свойствами его элементов, т.е. словоформ и знаков пунктуации (операторов). Синтаксические понятия, по существу, представляют собой функции, где параметрами служат языковые средства, а сами функции используются в условиях грамматических стратегий или правил. Ниже приведены пять языковых средств синтаксического анализа:

. Словоизменительные морфологические средства. Для языков с развитой морфологией, каким является русский, - это основной способ материализации синтаксических связей. Словоформа w1 морфологически зависит от словоформы w2 по морфологической категории C, если граммема (значение грамматической категории) g категории С, характеризующей w1, выбирается в зависимости от некоторого свойства f словоформы w2. Словоформа w2 называется контролером морфологической зависимости, аw1 - ее мишенью.\1\ Другими словами, один элемент предложения подстраивается под другой, т.е. принимает грамматическую форму продиктованную вторым элементом. Показателем морфологической зависимости в русском служит флексия, т.к. граммемы в русском обычно приписаны флексии, что позволяет в некоторых случаях обнаружить зависимость между двумя словоформами, отсутствующими в словаре, (например, «глок-ая куздр-а»). Если категория C, по которой наблюдается морфологическая зависимость, выражается в вершине, налицо вершинное маркирование, если же эта категория выражается в зависимой словоформе - зависимостное маркирование.\1\ В русском языке граммемы многих форм омонимичны ('ночи' = [[рд., дт., пр., ед.], [им., вн., мн.]] - омонимия числа и падежа), что создает определенные трудности в процессе анализа. Неоднозначность граммем в ходе автоматического синтаксического анализа иногда приводит к возникновению синтаксической омонимии и построению альтернативного синтаксического варианта (графа синтагм). Падежная омонимия с номинативом часто приводит к неоднозначному определению правой границы сегмента и, как следствие, к построению альтернативной структуры сегментации (графа сегментов). Парадокс или скорее взаимовлияние двух уровней анализа морфологического и синтаксического состоит в том, что граммема, являясь эффективным средством поиска морфологической зависимости, которая служит одним из способов реализации синтаксического отношения, может быть однозначно проинтерпретирована только вследствие фиксации этого отношения.

. Селективные признаки: Классифицирующие (селективные) признаки приписываются лексемам в грамматическом словаре, в отличие от граммем, которые вычисляются, исходя из парадигматического класса, для каждой словоформы на этапе морфологического анализа. Наиболее важной для синтаксиса является классификация лексем по категориальным (частеречным) признакам: существительное, глагол, прилагательное, и т.д. Существует и более дробное деление на субкатегориальные признаки внутри частей речи, так существительные можно разбить на два класса: одушевленные и неодушевленные. Категориальные признаки задают потенциальных участников синтаксической связи и определяют в большинстве случаев вершину в структуре, а также предопределяют понятия управления и согласования. Одушевленность и неодушевленность в русском языке служит контролером согласования для некоторых форм мужского рода или во множественном числе - «вижу большого [мр., ед., вн.] кролика [мр., ед., вн.] (*большой [мр., ед., вн.] кролика [мр., ед., вн.])' ~ 'вижу большой [мр., ед., вн.] стол [мр., ед., вн.] (*большого [мр., ед., вн.] стол [мр., 23 ед., вн.])' или 'вижу четкие фотомодели» ~ «вижу красивых фотомоделей» (пример Е. Ножовой).

. Служебные слова: предлоги, союзы и союзные слова, вспомогательные компоненты аналитических форм, частицы и т.д. Средства, которые служат в качестве опорных точек анализа. Так, союз может быть использован для определения поверхностного типа сегмента, или вспомогательный компонент аналитической формы содержит недостающие предикату граммемы, или предлог оформляет актант глагола.

. Знаки препинания (операторы): запятая, тире, точка, вопросительный знак, и т.д. Это средство не выделяется в теоретических описаниях, так как теоретический синтаксис имеет дело больше с устным языком, чем с письменным, к тому же не все письменные языки, в отличие от русского, имеют жесткие правила расстановки знаков препинания. В первую очередь, операторы определяют границы, как сегментов, так и всего предложения. Тире является выражением эллиптированного элемента предложения и часто используется в стратегиях поиска неморфологического предиката. Анализ бифункциональности оператора (когда, например, оператор является одновременно и правой границей сегмента, и оператором сочинения слов) - одна из самых трудных задач сегментации, которая и задает рекурсивный характер как грамматических стратегий анализа, так и методов программной реализации. В теоретических работах принято выделять интонацию как средство синтаксического анализа. Действительно, операторы в письменном тексте являются частичным выражением подмножества синтаксических случаев, характеризующихся интонацией в устном языке. В примере А. Кибрика предложение «В этой гимназии учился впоследствии всемирно известный киноартист», произнесенное с падением интонации на «впоследствии» имеет синтаксическую связь «учился Æ впоследствии', а при отсутствии падения тона - 'известный Æ впоследствии» [А. Кибрик, 2001]. Такие случаи применения интонации для различения синтаксических связей не фиксируются операторами в письменной форме, поэтому идеальный синтаксический процессор должен решить эту проблему через понятие синтаксической омонимии, построив две равноправных синтаксических структуры предложения.

. Порядок слов: Линейное расположение слов в предложении играет особую роль в изолирующих языках (китайский) и является основным средством для выражения синтаксических отношений в этих языках. Наряду с селективными признаками порядок слов имеет доминирующее значение в проектировании синтаксических анализаторов языков с бедной морфологией (английский). Во многих системах английского синтаксиса порядок слов задает направление поиска хозяина или слуги для каждого класса лексем и типа связи [D. Sleator, D. Temperley, 1991]. Для русского языка это средство анализа имеет второстепенное значение, хотя и применяется в ряде случаев для установление синтаксических связей или оценки омонимичных структур предложения. Несмотря на свободный порядок слов в русском, некоторые синтаксические зависимости имеют обязательным критерием выделения жесткий линейный порядок: генитивное определение должно следовать за определяемым словом ('ножка стол-а', 'сын отц-а'); предлог предшествует существительному ('на стол-е', 'у отц-а'); в 90% случаев определение, выраженное прилагательным или местоименным прилагательным, стоит до существительного (['большой красивый стол', 'седой отец'] ~ ['впечатление необычное']). Порой статистическое расположение синтаксических вершин и их зависимых позволяет разделить все типы синтаксических отношений на три типа: левоветвящиеся (прилагательное существительное: 90%), правоветвящиеся (генитивное определение: 100%) и смешанные (слабые актанты глагола: 50%/50%). Подобные эмпирические распределения могут эффективно использоваться в прикладных моделях. В лингвистической типологии эмпирически установлена универсальная классификация языков мира: языки левого (японский) и правого ветвления (русский и английский). Правда, эта классификация, в основном, строится на статистическом распределении фразовых категорий в линейном порядке предложения, к которым относятся именные (NP), предложные группы (PP) и клаузы (некоторые виды сегментов: придаточные определительные, причастные обороты, etc.). Другая синтаксическая классификация оперирует линейным порядком основных членов предложения: подлежащее (subject), сказуемое (verb) и дополнение (object). Английский относится к языкам Subject Verb Object (SVO) порядка, для русского SVO порядок является статистически доминирующим и наиболее естественным, но грамматически не 25 единственно возможным. В английском предложении ‘The farmer kills the duckling’ ‘Фермер убивает утенка’ (пример Э. Сепира [Э. Сепир, 1993]) любое изменение порядка слов ведет к изменению смысла всего высказывания ('The duckling kills the farmer' 'Утенок убил фермера.') или к потере грамматической правильности ('* The farmer the duckling kills.'Фермер утенка убил.'), то в русском переводном эквиваленте (‘Фермер убивает утенка’) возможен 3! перестановок, сохраняющих как общий смысл высказывания, так и грамматическую правильность, т.е. в русском варианте данного предложения возможны любые комбинаторные порядки: SVO, SOV, OVS, и т.д. Таким образом, линейный порядок предложения в автоматическом синтаксическом анализе используется как указатель наиболее вероятного направления поиска слуги или хозяина, и только в редких случаях как обязательный критерий установления синтаксической зависимости.

.
Разработка системы синтаксического анализа текста

12 3 Следующая ⇒

Последнее изменение этой страницы: 2020-02-17; Просмотров: 54; Нарушение авторского права страницы