Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Лабораторная работа №4. Частотный анализ поэтических текстов
По всем буквам
Математизация любой науки связана со следующими двумя уровнями развития. Первый уровень обусловлен переходом науки к абстрактному осмысливанию накопленных фактов и к созданию языка для классификации эмпирических знаний. На втором уровне в языке науки все больше проявляется основное свойство, ради которого он создается, – возможность выражать внутренние закономерности, связи между отдельными фактами и явлениями, изучаемые данной наукой, а также служить орудием познавательной деятельности специалистов. Это требует развития не только выразительных средств языка, но и его исчисленческой стороны, т. е. различного рода формальных (математических) преобразований, которым можно подвергнуть те или иные слова, фразы и другие языковые конструкции. Таким образом, следует считать, что язык любой науки состоит из двух частей. Первая, основная – это информативная часть языка, непосредственная информация, даже не классифицированная, а просто отобранная каким-то образом совокупность фактов, которые надлежит помнить, чтобы быть эрудированным в данной области знания. Вторая часть – это соответствующее исчисление, под которым, как правило, понимается сжатая форма выражения связей, позволяющих переходить от аксиом к следствиям, от них – к каким-то теоремам, фиксирующим знания в сжатой форме. Язык математически вводится в язык конкретной науки для выполнения следующих функций: § Описание и систематизация знаний; § Получение результатов, сопоставимых с экспериментом; § Осуществление проверки исходных понятий и функциональных зависимостей между ними; § Формулировка законов науки, что дает средства не только для описания и проверки существующего положения, но и для различных видов предсказания. Математизацию науки можно считать завершенной, если язык этой науки позволяет выполнить все перечисленные функции. К таким наукам можно отнести, прежде всего, физические: отнять у них математику – значит умертвить их. Однако далеко не во всех науках до сих пор успешно применяются математические методы, хотя, казалось бы, они должны использоваться в любой науке, вступающей в этап абстрактного мышления, поскольку в этом случае наряду с информативной частью языка возникает его исчисленческая часть, позволяющая беспристрастно оценивать факты и явления. Появление кибернетики и развитие вычислительной техники стимулировало формирование исчисленческой части языка в гуманитарных науках. Например, использование математических методов при изучении естественных языков способствовало возникновению математической лингвистики. Рассмотрим поэтический текст Н. Рубцова «Видения на холме»:
Взбегунахолм и упаду в траву. И древностью повеет вдруг из дола! И вдруг картины грозного раздора Я в этот миг увижу наяву. Пустынный свет на звёздных берегах И вереницы птиц твоих, Россия, Затмит на миг В крови и в жемчугах Тупой башмак скуластого Батыя...
Россия, Русь - куда я ни взгляну... И небеса, горящие от зноя, И не леса мне видятся окрест, в окрестностях России. Кресты, кресты... Я больше не могу Я резко отниму от глаз ладони И вдруг увижу: смирно на лугу И надо мной – бессмертных звёзд Руси, Спокойных звёзд безбрежное мерцанье.
В рамках информативной части языка об этом тексте можно сказать следующее. Это стихотворение во многом программное, в нем сконцентрированы основные мотивы творчества Рубцова. Прежде всего - тема исторической, национальной памяти, помогающая воспроизвести в сознании события от времени Батыя до наших дней. 3десь и мотив духовной, нравственной крепости народа, сумевшего выстоять в тягчайших испытаниях, отстоять свою независимость, и призыв к современникам исполнять свой долг перед отечеством. Так протягивается нить от Пушкинского стихотворения «Клеветникам России», Лермонтовского «Бородино», Блоковских «Скифов» к стихотворению «Видения на холме» с его особым символическим историко-философским осмыслением новой эпохи. Для Рубцова важно не только то, что выражено словами, но и то, что в подтексте, не высказано, но напето самой мелодией души. Приглашая учиться высокому искусству гармонии у природы, поэт прекрасно понимал жгучую связь между человеком и родной природой, которая может, оборвавшись, привести к трагедии, не только экологической, но и нравственной. Отсюда и трагические тона, усиливающие внутренний драматизм его поэзии. С вышесказанной оценкой текста «Видения на холме» согласится, прежде всего, человек, глубоко любящий родину, переживающий ее невзгоды и радующийся успехам своей страны. Для человека с иными взглядами анализируемый текст не вызовет никаких эмоций и может быть отнесен к обычной посредственности. Вполне очевидно, что оценка поэтических текстов информативным языком страдает субъективностью. Возникает вопрос: можно ли найти формальные, не субъективные оценки поэтических текстов. С позиции исчисленческой части языка любой текст – это множество (набор) слов. Слова образуют группы слов по какому-либо признаку. В качестве такого признака можно выбрать, например, начальную букву слова. Если число всех слов в тексте обозначить через N1, а число слов на конкретную начальную букву – через ni, то можно определить величину (1), которую назовем частотой появления слова на данную i-ю букву. В число niбудем включать и слова, состоящие из одной буквы. По набору частот piможно вычислить энтропию информации по известной формуле Шеннона (2) Величина Н1 известна также как количественная мера информации, и она измеряется в битах. Впервые в [1] этот критерий был использован для количественных оценок поэтических текстов Н. Рубцова. Там же и дана технология обработки текста и проведения расчетов по (2) в программе MicrosoftExcel. Рассчитанная по технологии [1] величина Н1 для текста «Видения на холме» оказалось равной 4,2077. Само по себе это число пока не о чем не говорит. Однако оказалось, что есть тексты других авторов, энтропия информации которых близка к вышеприведенному числу (см. таблица 1).
Таблица 1
Возникает вопрос: что означают близкие числовые значения энтропии информации для текстов различных авторов? Ответ с формальной точки зрения таков: все тексты из таблицы 1 имеют примерно одинаковые средние статистические длины слов. Вполне очевидно, что неформальный ответ на поставленный вопрос могут давать эксперты, занимающиеся оценкой поэтического творчества. В [1] произведен расчет Н1 для сорока пяти поэтических текстов Н. Рубцова. Результаты этих расчетов, заимствованные из [1], воспроизведены в таблице 2. Оказалось, что числовые значения Н1 для текстов Н. Рубцова изменяются в широких пределах. Возможно, это объясняется и тем обстоятельством, что среди этих текстов есть ранние стихи, как правило, подражательные, более зрелые и, наконец, совершенные, выдвинувшие Н. Рубцова в число лучших поэтов.
Таблица 2
Одним из фундаментальнейших понятий математики является понятие меры. В данном случае определение меры сводится к установлению такого диапазона числовых значений Н1,который определит высокохудожественный или непоэтический текст безотносительно к тому – каким автором он написан. Таким образом можно установить числовую шкалу значений Н1, с помощью которой можно будет осуществлять безсубъективные оценки поэтических текстов. В таблице 1 кроме текста Н. Рубцова представлены тексты классиков русской поэзии, поэтому возможно число четыре на указанной шкале будет соответствовать высокохудожественным поэтическим текстам. При проведении информационных измерений в текстах русского языка, поэтический текст можно считать как набор (множество) букв русского алфавита. Каждый элемент этого множества (каждую букву) можно привести в соответствие с числами натурального ряда в результате чего получим конечное множество, над элементами которого можно производить измерения. Если общее число букв данного текста обозначить через N2, а через Ni – количество конкретной i-ой буквы, то можно рассчитать (3) как частоту появления конкретной буквы в рассматриваемом поэтическом тексте. При расчете энтропии информации не конкретизируется методика расчета частот, поэтому и к частотам (3) применима формула Шеннона. В данном случае энтропию информации обозначим через Н2 и ее будем рассчитывать по следующей формуле (4) Вернемся снова к тексту «Видения на холме» и для него определим Н2 по формуле (4).
Таблица 3
1. Включение компьютера и вход в систему. Результат выполнения представлен на рисунке 1.
Рис. 1. 2. Запуск программы MicrosoftExcel. Результат выполнения представлен на рисунке 2.
Рис. 2. 3. Выбор активного листа. Параметры: - лист: «Лист1». Результат выполнения представлен на рисунке 3. Рис. 3.
4. Автозаполнение - нумерация. Параметры:- ячейка 1: «A2»; - ячейка 2: «A3»; - конечная ячейка: «A34»; - данные 1: «1»; - данные 2: «2»; Результат выполнения частично представлен на рисунке 4. Рис. 4.
5. Занесение заголовка в ячейку. Параметры: - ячейка: A1; - данные: «x». Результат выполнения представлен на рисунке 5. Рис. 5.
6. Занесение заголовка в ячейку. Параметры: - ячейка: B1; - данные: «Буква». Результат выполнения представлен на рисунке 6. Рис. 6.
7. Занесение заголовка в ячейку. Параметры: - ячейка: B2-B34; - данные: «Таблица3». Результат выполнения частично представлен на рисунке 7. Рис. 7. 8. Подсчёт символов в документе MicrosoftWord. Параметры: - символ: «а»; - ячейка MSExcel: «C2». Результат выполнения представлен на рисунке 8. Рис. 8.
Аналогичным, описанному в пункте 8 образом, следует подсчитать количество всех букв алфавита представленного в таблице 3. Результаты подсчёта следует заносить последовательно в ячейки C3-C34. Результат выполнения частично представлен на рисунке 9. Рис. 9.
9. Занесение заголовка в ячейку. Параметры: - ячейка: C1; - данные: «Кол-во». Результат выполнения частично представлен на рисунке 10. Рис. 10. 10. Занесение формул в ячейку. Параметры: - ячейка: С35; - данные: «=СУММ(C2:C34)». Результат выполнения представлен на рисунке 11. Рис. 11.
11. Занесение заголовка в ячейку. Параметры: - ячейка: B35; - данные: «N2=». Результат выполнения частично представлен на рисунке 12. Рис. 12.
12. Занесение заголовка в ячейку. Параметры: - ячейка: D1; - данные: «Pi». Результат выполнения представлен на рисунке 13. Рис. 13.
13. Автозаполнение - формула. Параметры: - ячейка: D2; - данные: «=C2/$C$35» - конечная ячейка: D34. Результат выполнения частично представлен в таблице на рисунке 14. Рис. 14.
14. Автозаполнение - формула. Параметры: - ячейка: E2; - данные: «=ЕСЛИ(D2=0;0;-D2*LOG(D2;2))» - конечная ячейка: E34. Результат выполнения частично представлен в таблице на рисунке 15. Рис. 15.
15. Занесение заголовка в ячейку. Параметры: - ячейка: D35; - данные: «H2=». Результат выполнения частично представлен на рисунке 16. Рис. 16.
16. Занесение формул в ячейку. Параметры: - ячейка: E35; - данные: «=СУММ(E2:E34)». Результат выполнения представлен на рисунке 17. Рис. 17. 17. Активизация диапазона ячеек. Параметры: - диапазон: A1÷D34. Результат выполнения частично представлен на рисунке 18. Рис. 18.
18. Копирование в буфер обмена. Параметры: - ячейка-источник: «A1÷D34»; - ячейка-цель: «Лист2! A 2». Результат выполнения частично представлен на рисунке 19. Рис. 19.
19. Активизация диапазона ячеек. Параметры: - диапазон: «B1÷D1». Результат выполнения частично представлен на рисунке 20. Рис. 20.
20. Копирование в буфер обмена. Параметры: - ячейка-источник: «B1÷D1»; - ячейка-цель: «Лист2! B 1». Результат выполнения представлен на рисунке 21. Рис. 21.
21. Выбор активного листа. Параметры: - лист: «Лист2». Результат выполнения представлен на рисунке 22. Рис. 22.
22. Занесение заголовка в ячейку. Параметры: - ячейка: A1; - данные: «№ буквы». Результат выполнения частично представлен на рисунке 23. Рис. 23.
23. Активизация диапазона ячеек. Параметры: - диапазон: «A1÷D34». Результат выполнения частично представлен на рисунке 24. Рис. 24.
24. Копирование в буфер обмена. Параметры: - ячейка-источник: «A1÷D34»; - ячейка-цель: «E1». Результат выполнения представлен на рисунке 25.
Рис. 25.
25. Сортировка данных. Параметры: - диапазон: «E1÷H34»; - тип: «по возрастанию»; - сортировка: «Pi». Результат выполнения частично представлен на рисунке 26. Рис. 26.
26. Активизация диапазона ячеек. Параметры: - диапазон: «E1÷H1». Результат выполнения частично представлен на рисунке 27. Рис. 27.
27. Копирование в буфер обмена. Параметры: - ячейка-источник: «E1÷H1»; - ячейка-цель: «I1». Результат выполнения представлен на рисунке 28. Рис. 28.
28. Активизация диапазона ячеек. Параметры: - диапазон: «E2÷E34». Результат выполнения частично представлен на рисунке 29. Рис. 29. 29. Копирование в буфер обмена. Параметры: - ячейка-источник: «E2÷E34»; - ячейка-цель: «I2». Результат выполнения представлен на рисунке 30. Рис. 30.
30. Активизация диапазона ячеек. Параметры: - диапазон: «F2÷H2». Результат выполнения частично представлен на рисунке 31. Рис. 31. 31. Копирование в буфер обмена. Параметры: - ячейка-источник: «F2÷H2»; - ячейка-цель: «J34». Результат выполнения представлен на рисунке 32. Рис. 32.
32. Активизация диапазона ячеек. Параметры: - диапазон: «F3÷H3». Результат выполнения частично представлен на рисунке 33. Рис. 33. 33. Копирование в буфер обмена. Параметры: - ячейка-источник: «F3÷H3»; - ячейка-цель: «J2». Результат выполнения представлен на рисунке 34. Рис. 34.
Аналогично повторим шаги 30-33 для оставшихся диапазонов с F4÷H4 до F34÷H34. Вставку скопированных диапазонов следует производить в ячейки cJ4 до J34 соответственно. Результат выполнения частично представлен на рисунке 35. Рис. 35.
34. Построение диаграммы . Параметры: - диапазон данных: «L2÷L34»; - диапазон подписей: «J2÷J34»; - тип: «гистограмма»; - вид: «обычная гистограмма»; - название оси Х: «буква»; - название оси Y : «Pi»; - размещение: «в отдельном листе». Результат выполнения представлен на рисунке 36.
Рис. 36. Гистограмма нормального распределения частот. Гистограмма нормального распределения частот иллюстрирует процесс группирования частот относительно максимальной частоты. Характер такой группировки может также характеризовать индивидуальность текста. Действительно, гистограмма на рис. 36 представляет распределение частот букв русского алфавита для текста «Видения на холме». Однако из сочетания букв образуются такие составляющие слова, как слоги и корни. Поэтому представляется реальным создание определенного алгоритма, по которому из частотного распределения букв можно определить частоты появления определенных слогов и корней. В таблице 2 представлены рассчитанные по вышеуказанной технологии величины Н2 для различных текстов Н. Рубцова. Диапазон изменения чисел Н2 оказался меньшим по сравнению с диапазоном Н1. Однако оказались такие тексты, для которых числовые значения Н1 и Н2 близки. Например, текст «Видения на холме». Возможно, этот факт служит еще одним доказательством того, что число четыре на числовой шкале соответствует высоко художественным текстам. Для каждого из текстов из таблицы 2 были построены гистограммы распределения частот букв в порядке возрастания частоты. Эти гистограммы строились так же как и гистограммы на рис. 16. Из указанных гистограмм оказалось возможным получить для каждой из букв предельные значения частот, которые имеют место в текстах из таблицы 2. Таблица 4 иллюстрирует значения предельных частот для каждой из букв русского алфавита. Оказалось, что существуют такие поэтические тексты Н. Рубцова, в которых отсутствуют некоторые буквы алфавита. Это тексты, для которых Pmin=0. В данном случае к указанным буквам относятся следующие: ё, ф, х, ц, ш, щ, ъ, э, ю (см. таблицу 4). Кроме того, можно выделить буквы, для которых имеет место закон устойчивости частот.
Таблица 4 Буква |
Экстремальные |
Буква |
Экстремальные | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Частоты |
Частоты | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Pmax | Pmin | Pmax | Pmin | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
а | 0,1015 | 0,0374 | п | 0,0528 | 0,0081 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
б | 0,0406 | 0,0027 | р | 0,0651 | 0,0222 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
в | 0,0683 | 0,0028 | с | 0,1022 | 0,0232 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
г | 0,1922 | 0,0019 | т | 0,3036 | 0,0051 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
д | 0,0612 | 0,0134 | у | 0,0665 | 0,0044 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
е | 0,1187 | 0,0055 | ф | 0,0193 | 0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ё | 0,2026 | 0 | х | 0,0355 | 0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
ж | 0,0364 | 0,0014 | ц | 0,0137 | 0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
з | 0,0347 | 0,0022 | ч | 0,0324 | 0,0029 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
и | 0,1005 | 0,0246 | ш | 0,0167 | 0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
й | 0,0445 | 0,0051 | щ | 0,0156 | 0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
к | 0,0583 | 0,0156 | ь | 0,0459 | 0,0019 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
л | 0,2265 | 0,0189 | ы | 0,242 | 0,0022 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
м | 0,0765 | 0,0134 | ъ | 0,0036 | 0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
н | 0,1228 | 0,0338 | э | 0,0075 | 0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
о | 0,1833 | 0,0363 | ю | 0,0324 | 0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
|
| я | 0,0351 | 0,0056 |
К таким буквам следует отнести только те, у которых предельные частоты различаются в одном и том же числовом знаке после запятой. Данные таблицы 6 позволяют к указанным буквам отнести следующие: д, к, м, р.
Для этих согласных характер изменения частот в зависимости от номера N текста иллюстрирует таблица 5. Заметим, что нумерация текстов Н. Рубцова в таблице 5 совпадает с их нумерацией в таблице 2. Построим гистограммы распределения частот для букв д, к, м, р.
Таблица 5
N номер текста |
Частота появления букв | N номер текста |
Частота появления букв | ||||||
| д | к | м | р | 23 | 0,0176 | 0,0463 | 0,0441 | 0,0529 |
1 | 0,036 | 0,036 | 0,0249 | 0,0305 | 24 | 0,0334 | 0,039 | 0,0251 | 0,0418 |
2 | 0,0305 | 0,0446 | 0,054 | 0,0563 | 25 | 0,0173 | 0,0259 | 0,0331 | 0,0317 |
3 | 0,0286 | 0,0161 | 0,0321 | 0,0411 | 26 | 0,0612 | 0,0252 | 0,0432 | 0,036 |
4 | 0,0221 | 0,0363 | 0,0315 | 0,0599 | 27 | 0,0383 | 0,0355 | 0,0164 | 0,0464 |
5 | 0,0409 | 0,0498 | 0,0396 | 0,0434 | 28 | 0,0311 | 0,0342 | 0,0404 | 0,0559 |
6 | 0,0341 | 0,0409 | 0,0221 | 0,0443 | 29 | 0,0237 | 0,0379 | 0,0355 | 0,0355 |
7 | 0,0327 | 0,0245 | 0,0436 | 0,0381 | 30 | 0,0287 | 0,0161 | 0,0323 | 0,0412 |
8 | 0,037 | 0,0398 | 0,0299 | 0,0441 | 31 | 0,0513 | 0,0493 | 0,0287 | 0,037 |
9 | 0,035 | 0,0337 | 0,0391 | 0,0445 | 32 | 0,0562 | 0,0545 | 0,0221 | 0,0511 |
10 | 0,031 | 0,0487 | 0,0398 | 0,0413 | 33 | 0,0254 | 0,0226 | 0,0565 | 0,0367 |
11 | 0,024 | 0,0377 | 0,0171 | 0,0651 | 34 | 0,0289 | 0,0578 | 0,0193 | 0,0385 |
12 | 0,0278 | 0,0298 | 0,0575 | 0,0496 | 35 | 0,0338 | 0,0451 | 0,0489 | 0,0602 |
13 | 0,0202 | 0,0567 | 0,0324 | 0,0445 | 36 | 0,0282 | 0,0465 | 0,0183 | 0,0548 |
14 | 0,0357 | 0,0204 | 0,0765 | 0,051 | 37 | 0,0134 | 0,0403 | 0,0134 | 0,0345 |
15 | 0,0377 | 0,0493 | 0,0464 | 0,0493 | 38 | 0,0447 | 0,0404 | 0,0383 | 0,0404 |
16 | 0,0363 | 0,0391 | 0,0503 | 0,0475 | 39 | 0,0192 | 0,0282 | 0,0282 | 0,0435 |
17 | 0,0144 | 0,0542 | 0,0361 | 0,0469 | 40 | 0,0453 | 0,0283 | 0,034 | 0,0482 |
18 | 0,0316 | 0,0281 | 0,0175 | 0,0632 | 41 | 0,0417 | 0,0583 | 0,0222 | 0,0222 |
19 | 0,0338 | 0,0286 | 0,0338 | 0,0571 | 42 | 0,0263 | 0,0286 | 0,031 | 0,0597 |
20 | 0,0297 | 0,027 | 0,0514 | 0,0432 | 43 | 0,0399 | 0,0156 | 0,0676 | 0,0433 |
21 | 0,0266 | 0,0241 | 0,0254 | 0,0609 | 44 | 0,0502 | 0,027 | 0,027 | 0,0425 |
22 | 0,0349 | 0,0349 | 0,0407 | 0,064 | 45 | 0,0354 | 0,0314 | 0,0511 | 0,0413 |
35. Выбор активного листа.
Параметры: - лист: «Лист3». Результат выполнения представлен на рисунке 37. Рис. 37.
36. Занесение заголовка в ячейку.
Параметры: - ячейка: A1; - данные: «Номер текста».
Результат выполнения частично представлен на рисунке 38. Рис. 38.
37. Объединение ячеек.
Параметры: : - диапазон: «B1÷E1». - данные: «Частота появления букв». Результат выполнения частично представлен на рисунке 39. Рис. 39.
38. Занесение заголовка в ячейку.
Параметры: - ячейка: B1; - данные: «Частота появления букв». Результат выполнения частично представлен на рисунке 40. Рис. 40.
39. Автозаполнение - нумерация.
Параметры:- ячейка 1: «A3»;
- ячейка 2: «A4»; - конечная ячейка: «A47»; - данные 1: «1»; - данные 2: «2»; Результат выполнения частично представлен на рисунке 41. Рис. 41.
40. Занесение заголовка в ячейку.
Параметры: - ячейка: B2; - данные: «д». Результат выполнения частично представлен на рисунке 42. Рис. 42.
41. Занесение заголовка в ячейку.
Параметры: - ячейка: C2; - данные: «к». Результат выполнения частично представлен на рисунке 43. Рис. 43.
42. Занесение заголовка в ячейку.
Параметры: - ячейка: D2; - данные: «м». Результат выполнения частично представлен на рисунке 44. Рис. 44.
43. Занесение заголовка в ячейку.
Параметры: - ячейка: E2; - данные: «р». Результат выполнения частично представлен на рисунке 45. Рис. 45.
44. Занесение десятичных дробей в диапазон ячеек.
Параметры: - диапазон ячеек: B3¸B47; - данные: «Таблица 7.Столбец “д”».
45. Занесение десятичных дробей в диапазон ячеек.
Параметры: - диапазон ячеек: C3¸C47; - данные: «Таблица 7.Столбец “к”».
46. Занесение десятичных дробей в диапазон ячеек.
Параметры: - диапазон ячеек: D3¸D47; - данные: «Таблица 7.Столбец “м”».
47. Занесение десятичных дробей в диапазон ячеек.
Параметры: - диапазон ячеек: E3¸E47; - данные: «Таблица 7.Столбец “р”».
Результат выполнения пунктов 44-47 частично представлен на рисунке 46.
Рис. 46.
48. Активизация диапазона ячеек.
Параметры: - диапазон: «A2÷B47». Результат выполнения частично представлен на рисунке 47. Рис. 47.
49. Копирование в буфер обмена.
Параметры: - ячейка-источник: «A2÷B47»; - ячейка-цель: «F1». Результат выполнения представлен на рисунке 48. Рис. 48.
50. Сортировка данных.
Параметры: - диапазон: «G1÷G46»; - тип: «по возрастанию»; - сортировка: «д». Результат выполнения частично представлен на рисунке 49.
Рис. 49.
51. Построение диаграммы .
Параметры: - диапазон данных: «G2÷G46»; - диапазон подписей: «F2÷F46»; - тип: «гистограмма»; - вид: «обычная гистограмма»; - название оси Х: «x»; - название оси Y : «P5»; - размещение: «в отдельном листе». Результат выполнения представлен на рисунке 50.
Рис. 50. Закон распределения буквы «д» в порядке возрастания частоты.
52. Активизация ячейки.
Параметры: - ячейка: «G2 Результат выполнения частично представлен на рисунке 51. Рис. 51.
53. Копирование в буфер обмена.
Параметры: - ячейка-источник: «G2»; - ячейка-цель: «H2». Результат выполнения представлен на рисунке 52. Рис. 52.
54. Активизация ячейки.
Параметры: - ячейка: «G46» Результат выполнения частично представлен на рисунке 53. Рис. 53.
55. Копирование в буфер обмена.
Параметры: - ячейка-источник: «G46»; - ячейка-цель: «H3». Результат выполнения представлен на рисунке 54. Рис. 54.
Аналогичным образом необходимо последовательно скопировать наименьшие и наибольшие значения частот появления буквы «д». Вставлять скопированные значения следует в ячейки с H4 по H47. Результат выполнения частично представлен на рисунке 55.
Рис. 55
56. Построение диаграммы .
Параметры: - диапазон данных: «H2÷H46»; - диапазон подписей: «F2÷F46»; - тип: «гистограмма»; - вид: «обычная гистограмма»; - название оси Х: «x»; - название оси Y : «P5»; - размещение: «в отдельном листе». Результат выполнения представлен на рисунке 56.
Рис. 56. Закон устойчивости частот для буквы «д» (Р5).
Аналогичным образом, указанным в пунктах 48-56, следует построить диаграммы, иллюстрирующие закон устойчивости частот для букв «к», «м» и «р». Результаты выполнения представлены на рисунках 57-62.
Рис. 57. Закон распределения буквы «к» в порядке возрастания частоты.
Рис. 58. Закон устойчивости частот для буквы «к» (Р12).
Рис. 59. Закон распределения буквы «м» в порядке возрастания частоты.
Рис. 60. Закон устойчивости частот для буквы «м» (Р14).
Рис. 61. Закон распределения буквы «р» в порядке возрастания частоты.
Рис. 62. Закон устойчивости частот для буквы «р» (Р18).
На гистограммах, представленных на рисунках 50, 56, 57 - 62 по оси абсцисс отложен номер текста, который может и не совпадать с номером того же текста в таблице 2; а по оси ординат дается значение частоты появления данной буквы в стихотворении, рассматриваемого номера. При построении указанных гистограмм тексты перенумерованы так, что поведение частот носит колебательный характер, а с ростом номера частоты появления букв стремятся к средним частотам равным
(5).
Значения средних частот, рассчитанных по (5) предоставляются таблицей 6.
Таблица 6
Буква | Pmax | Pmin | ∆ |
д | 0,061 | 0,013 | 0,048 |
к | 0,058 | 0,016 | 0,043 |
м | 0,077 | 0,013 | 0,063 |
р | 0,065 | 0,022 | 0,043 |
Представленные таким образом колебательные поведения частот являются графической формой представления закона устойчивости частот.
Таблица 7 | ||
Буква | Число текстов n | Частота |
ъ ф э | 40 36 20 | 0,8899 0,8000 0,4444 |
щ ц ю | 20 15 8 | 0,4444 0,3333 0,1778 |
ё х | 4 1 | 0,0889 0,0222 |
Вполне очевидно, что закон устойчивости частот для букв, указанных в таблицах 5 и 6, определяет индивидуальность поэтических произведений Н. Рубцова. Он как бы определяет набор словесного материала, который инвариантен для всех произведений рассматриваемого поэта.
Уже отмечалось, что среди рассматриваемых текстов (табл. 2) были и такие, в которых некоторые буквы не встречаются вообще. В таблице 7 приводятся эти буквы и число n текстов, в которых они не встречаются. Так как всего рассмотрено сорок пять текстов Н. Рубцова, то по формуле
(6)
можно вычислить частоту появления текстов, в которых данные буквы отсутствуют. Результаты расчетов по (6) приведены в таблице 7.
Оказалось, что одной из редко встречающихся букв оказалась буква «ф» (см. табл. 7). За разъяснением этого обстоятельства обратимся к исследованиям выдающегося советского филолога Льва Васильевича Успенского (1900 – 1990). В его научно-занимательной книге [3] отмечается, что в поэтических произведениях Пушкина, Лермонтова, Крылова и других русских классиков буква «ф» почти не встречается. Обнаруживается и другое – каждое слово русского языка, в котором в начале, на конце или в середине пишется буква «ф», на поверку оказывается словом не исконно русским, а пришедшим к нам из других языков. По мнению Успенского, редкость буквы «ф» в русской литературе не случайность. Она – свидетельство глубокой народности, высокой чистоты русского языка у наших великих писателей.
Следовательно, указанная традиция великих русских классиков сохранена и в творчестве Н. Рубцова.
В настоящее время наметилась тенденция изучения поэтических текстов методами паралингвистики [3]. В этих исследованиях паралингвистические интонации, обнаруженные на основе частотного анализа буквосочетаний, обобщаются в модели эмоционально выразительных интонаций поэта.
Несомненно, что применение информационных технологий может активизировать исследования в паралингвистике.
Последнее изменение этой страницы: 2019-04-19; Просмотров: 308; Нарушение авторского права страницы