Квантитативная лингвистика: дешифровка текста, авторизация текста.

Статистическая обработка экспериментальных данных

Современная лингвистика становится все более экспериментальной. Требование корректности применения статистических процедур заставляется отбрасывать часть материала, искажая структуру объекта. Статистика изучает варьирующийся признак, например, длину предложения: одно, два, три и т.д. слов в предложении – градации признака «длина». Лингв. признаки могут быть

· количественные, т.е. сопоставляться с определенной мерой: число морфем в слове, высота основного тона)

· качественные: например, активный / пассивный залог; ударность(можно задать 3 градации – ударный, безударный, полуударный), можно исследовать только одну характеристику – частоту встречаемости градаций этих признаков

· ветвящиеся – с ними возникает проблема, например, признак «ритмическая структура слова» - ветвящийся признака, потому что прежде всего это длина слова, а потом – место ударного слога.

Если мы хотим по наблюдениям над выборкой сделать какое-то заключение о генеральной совокупности, то выборка должна достаточно четко представлять генеральную совокупность. В случае количественной выборки, она должна позволять сделать какое-то заключение о генеральных параметрах с заданной точностью. Качественная достоверность выборки устанавливается, если структура выборки повторяет структуру генеральной совокупности. Когда структура известна, точнее известны факторы, влияющие на изучаемый параметр, выборку строят в соответствии с этими распределениями. Если генеральная структура выборки неизвестна, то выборку строят по случайному закону, т.е. с помощью любого датчика случайных чисел.

Построение распределения необходимо для выявления его формы, напр. определения типы языка при дешифровке. Генеральная совокупность в статистике – множество объектов, организованных не просто по изучаемому признаку, а обязательно по однородному признаку.

Дешифровка - это исследование сообщений или текстов для обнаружения информации, представленной способом, не известным исследователю. Объектами лингвистической дешифровки являются тексты на языках каких-л. народов или записи иных знаковых систем: ноты, картографические документы, математические формулы. Но ни изучение нуклеотидных цепей, ни медицинская диагностика, ни работа детектива не являются лингвистической дешифровкой. Лингвистическая дешифровка включает в себя исследование исторических письмен и чтение тайнописи (криптограмм). В первом случае непонятность текста исследователю обусловлена разрывом традиции, во 2 – специальными усилиями, предпринятыми автором или шифровальщиком, чтобы сузить круг адресатов. В текстах, записанных шифрами и кодами, основанными на замене элементов текста другими, заранее обусловленными, сохраняются естественные закономерности построения языка.

Шифр имеет в качестве «означаемого», или номинанта, звук или элемент письменности данного языка. Например, простейшим шифром является обозначение каждой буквы алфавита ее порядковым номером. обозначающее в это шифре – двузначное число, номинант – буква русского алфавита, порядковый номер которой обозначен этим числом: а-01, б-02…В отличие от шифра код имеет обозначаемое в прямом смысле, т.е. представляет собой условное означаемое для существующего в кодируемом языке значения. Примером может служит «офенский язык», жаргон бродячих торговцев центральной России 19-20 вв: «Обтыривай маз! Дулец-то яманный! » - говорил коробейник своему напарнику и тот понимал: «Обвешивай, приятель! Мужик-то простоват! » Этот код развился как социальный диалект русского языка. Кодированию, замене подверглись только элементы, несущие лексическое значение, а грамматические и словообразовательные морфемы остались русские.

Задачи, решаемые криптографией и дешифровкой исторических систем письма, почти противоположны, и методы первой могут весьма ограниченно применяться во второй. В криптографии предполагается, что исходный, незакодированный текст написан на известном языке, причем обычно либо этот язык хорошо известен, либо круг кандидатов на эту роль из числа хорошо известных языков весьма невелик. Цель криптографии состоит в восстановлении исходного текста по зашифрованному тексту, в котором всякого рода статические распределения элементов текста могут очень сильно отличаться от соответствующих распределений элементов в исходном тексте.

При дешифровке исторических систем письма неизвестен язык, на котором написан текст, но сам текст не подвергался специальной обработке, имеющей целью затруднить чтение текста; текст записан в соответствии с нормами орфографии данного языка. В конце 50-х годов специалисты в области дешифровки исторических систем письма стали придавать большое значение машинной обработке изучаемых текстов - " машинная дешифровка". Использование вычислительной техники при дешифровке позволяет осуществить очень громоздкую обработку: Разбивка нерасчлененного текста на блоки, составление прямых и обратных словарей, выявление формальной грамматики. Неизвестный текст вводится в вычислительную машину в цифровой транскрипции, которая составляется вручную.

Основным методом изучения неизвестных текстов считают позиционную статистику. Обычно при дешифровке широко используются такие простые статистические методы, как составление частот знаков алфавита, частотные словари и т. п., т. е. такие приемы, которые дают частотные характеристики знаков, морфем, словоформ в тексте, не связывая частотные характеристики со структурой текста. Под позиционной статистикой текста понимают частотные характеристики, которые связывают единицы текста с некоторой структурой текста, с положением, занимаемым этими единицами в тексте. Такого рода частотные характеристики позволяют выяснить закономерности, имеющиеся между различными элементами текста. Например, на основе частот знаков текста в зависимости от положения можно выявить характерные позиции знака внутри слова (инициальная, медиальная, финальная) и наметить подходы для выявления морфологии. Можно аналогичным образом исследовать сочетаемость морфем между собой, выявить закономерности сочетания слов внутри предложения. Это возможно потому, что текст рассматривается как структура связей, действующих для близких элементов. Для текстов малых объемов позиционная статистика становится единственным способом получения надежной информации о структуре текста.

Согласно методике дешифровки, предложенной Ю.В. Кнорозовым, предполагается, что неизвестный текст записан на некотором, пока для нас неизвестном, но естественном языке, не подвергался специальным преобразованиям типа зашифровки с целью затруднить чтение этого текста. Предполагается, что в тексте существует определенная структура связей, причем для большинства случаев связи в тексте проявляются на небольшом расстоянии и близкие по тексту элементы находятся в некотором соотношении. Поэтому основной метод - позиционная статистика.

Описание этапов:

Разбиение непрерывного текста (написанного без пробелов) на отдельные блоки, соответствующие в основном словоформа на основе выделения в тексте устойчивые знакосочетаний. Если знаешь направление письма, а его часто подсказывает ориентация знаков, и видишь, что он разделен на блоки, можно ввести своего рода систему координат. Это значит, что позицию каждого блока можно определить по отношению к началу текста, а позицию отдельного знака в блоке - по отношению к началу и концу данного блока.

Следующая задача - анализ морфологии слова. В эту задачу входят разбиение каждого блока на отдельные части и классификация их с целью выделения постоянных и переменных частей, соответствующих корневым и служебным морфемам. Важной и необходимой задачей, сходной с предыдущей, является выяснение структуры предложения. На основе полученных данных можно ставить задачу о выявлении классов блоков как по морфологической, так и по синтаксической структуре. Затем, используя и факты сравнительного языкознания, и дополнительные внетекстовые данные (археологических, исторических, филологических и иных сведений), нужно конкретизировать грамматику неизвестного языка и только затем переходить к изучению смысла текста.

При исследовании как структуры словоформы, применяется прием " окружения": для каждого элемента текста указываются группы из n элементов текста, которые " окружают" в тексте слева и справа исследуемый элемент. Такие окружения позволяют выявить связи между исследуемым элементом и другими " близкими к нему" частями текста.

Комбинаторный метод вкл. как дешифровку изнутри (анализ комбинаций языковых элементов), так и дешифровку «извне» (привлечение данных разного характера: место находки надписи, предмет, на кот. она нанесена, сопровождающие изображения, сведения о народе и их соседях)

Атрибуция, то же, что авторизация – установление принадлежности анонимного произведения или в случае мистификации. В широком смысле А. – соотнесение тексту соотв. атрибутов, к кот. причисляются имя создателя, жанр, время и место создания. Текст, авторство кот. подлежит определению наз. анонимным. Если автор ставит свое имя под чужим произведением, говорят о плагиате. Иногда автор выпускает произведение под псевдонимом.

Проблема установления авторства (атрибуции) анонимных и псевдонимных статей давно перестала быть задачей филологии. В настоящее время решение этой задачи связано со многими как прикладными историко-филологическими дисциплинами, так и с широким кругом естественно-технических наук, таких как статистика и теория вероятностей, теория коммуникаций и др. Естественно, что с развитием вычислительной техники, появилась возможность использовать более эффективные методы для решения этой проблемы, учитывая различные лингвостатистические параметры. Основная цель формально-количественных методов – придать процессу атрибуции более объективный характерр.

Формально-количественные методы связаны с анализом синтаксических структур, сочетаний грамматических классов, длины предложения, насыщенности словаря. Например, задачей исследования является установление авторства Пряникова некоторых статей или же наоборот, отклонение гипотезы о том, что автором спорных статей является Пряников. Для этого необходимо, во-первых, определить формально-грамматические признаки стиля Пряникова; во-вторых, сравнить установленный инвариант с грамматическими параметрами исследуемых анонимных статей. Методики проведения анализа могут строиться, например, на основе распределения частей речи на первых трех и последних трех позициях предложений. При помощи специальных программ из базы данных произведений для каждой статьи получают частотные таблицы частей речи для указанных позиций предложения. Однако прежде чем использовать те или иные формальные характеристики для атрибуции текста, необходимо выявить подсознательные особенности языка автора, т. е. элементы авторской манеры, присутствующие непременно в его любом тексте. Причем желательно найти такие характеристики, которые можно выделить у любого автора, но значения этих характеристик отличались бы у разных авторов. Также следует определить инварианты для всех текстов конкретного жанра, независимо от авторства.

Области применения:

В последнее время задача установления авторства текста приобретает все большее значение и для криминалистики. Типичная задача - идентификация автора анонимного текста по его языковым параметрам (определение авторства различных анонимных писем, содержащих угрозы, шантаж).

Лингвистическая экспертиза важна при решении споров, связанных с политическими проблемами. Анонимная или псевдоанонимная информация все чаще распространяется во время предвыборных кампаний с целью дискредитации конкурентов. В связи с развитием электронных сетей и увеличением информации, распространяемой с их помощью, обостряется проблема соблюдения авторских прав.

В юридической психолингвистике сложилось направление, связанное с лингвистическими методами идентификации личности по анонимному тексту. Общий метод заключается в том, чтобы на основе исследования формальных (лингвистических, текстовых) и неформальных (содержательных, смысловых) характеристик текста определить отдельные психологические черты человека, если возможно, то его полный психологический портрет.

Конкретные разработки:

К настоящему времени существует программный комплекс «Атрибуция» для лингвистического анализа, позволяющий в диалоговом режиме проводить грамматический и синтаксический разборы литературных текстов, используя многочисленные лингвистические характеристики, например, такие как часть речи, падеж, род, число, тип предложения и т.д. Программный комплекс состоит из двух частей: модуль «Грамматический анализ» и модуль «Синтаксический анализ». Они позволяют формализовать 69 лингвистических параметров. Принципы работы обоих модулей одинаковы: входной информацией является литературный текст в электронном виде. Каждый модуль первоначально выделяет целое предложение, а затем позволяет работать с каждым словом предложения, предлагая в простых ситуациях (например, союзы) свой вариант значений, но решающим правом на принятие решения обладает пользователь, который, несомненно, должен являться специалистом-филологом. На выходе получается структурированный в виде таблицы, файл с полным синтаксическим или грамматическим разбором. Модуль «Грамматический анализ» ориентирован на выделение таких лингвистических параметров как, например: часть речи, падеж, число, род и т.п. Общее число параметров равно 46.

В модуле «Синтаксический анализ» анализируется структура и грамматическое значение синтаксических единиц и определяется тип конструкции. Список параметров содержит: Тип предложения (повествовательное, восклицательное, вопросительное), Часть речи для подлежащего, Количество членов для сказуемого

При помощи этого программного комплекса обработана 31 статья Ф.М. Достоевского.

⇐ Предыдущая 1 2 345 6 7 8 9 Следующая ⇒

Последнее изменение этой страницы: 2017-03-14; Просмотров: 361; Нарушение авторского права страницы