Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Способы изучения зависимостей между случайными величинами



Корреляционный и регрессионный анализ

Корреляция в статистике

(от лат. correlatio — соотношение, взаимосвязь), корреляционная зависимость — статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с допустимой степенью точности считать таковыми).

Положительная корреляция — связь, при которой увеличение одной переменной связано с увеличением другой. Отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой.

 

 

СВЯЗЬ

Функциональная Корреляционная Отсутствие связи

 

Функциональнойназывают такую связь, при которой определённому значению факторного признака соответствует только одно значение результативного.

 

(Термин «корреляция» в лингвистике)

Противопоставленность или сближение единиц языка по определённым свойствам (на всех уровнях языковой системы). Более всего развита теория фонологической корреляции (см. в первую очередь работы Н. С. Трубецкого).

 

Формальная и содержательная взаимосвязь: ложные корреляции

Устойчивая корреляция между двумя случайными величинами является свидетельством существования некоторой статистической связи, но эта связь не обязательно должна иметь причинно-следственный характер.

Очевидность корреляции может привести к ложным выводам о наличии причинно-следственной связи между парами признаков!

 

Статистические методы

Для оценивания статистической зависимости между случайными величинами:

корреляционный анализ

регрессионный анализ

Тесно связаны друг с другом.

 

Корреляционный анализ: определение тесноты связи между двумя или более признаками с помощью специальных коэффициентов. Регрессионный анализ: установление формулы зависимости между рассматриваемыми признаками на основе построения регрессионной модели.

 

Корреляционный анализ

Метод обработки статистических данных, с помощью которого измеряется теснота связи между двумя или более случайными величинами. Полезен, когда необходимо поверить гипотезу о наличии зависимостей между фактами ряда А и ряда Б.

Возможен при наличии достаточного количества наблюдений для изучения. Это количество должно не менее чем в 5-6 раз превышать число факторов.

Исходная совокупность значений должна быть качественно однородной.

Чем больше величина коэффициента корреляции, тем теснее связь между явлениями.

 

Корреляционный анализ

Б. Головин, Н. Барановская: вычисление коэффициентов корреляции на материале частот имен существительных и местоимений в научно-публицистической и художественной речи.

Полученные отрицательные коэффициенты (отрицательная корреляция: -0, 9, -0, 82) свидетельствуют о наличии сильной отрицательной зависимости между существительными и местоимениями, т.е. увеличение активности одной части речи за счет другой.

 

Корреляционный анализ

Коэффициенты корреляции относительно просты в подсчете.

Простота интерпретации анализа — широкое распространение.

 

! Еще раз: сам по себе факт корреляционной зависимости не даёт основания утверждать, что величины причинно связаны между собой, а не наблюдается действие третьего фактора.

 

Регрессионный анализ

Статистический метод исследования влияния одной или нескольких независимых переменных X1, X2, X3… Xn на зависимую переменную Y. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными.

Цели регрессионного анализа

Определение степени детерминированности вариации зависимой. переменной независимыми переменными.

Предсказание значения зависимой переменной с помощью независимых.

Определение вклада отдельных независимых переменных в вариацию зависимой.

Пример регрессионной зависимости

Закон Ципфа

закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (рангу этого слова).

Закон носит имя своего первооткрывателя — американского лингвиста Джорджа Ципфа (George Kingsley Zipf) из Гарвардского университета.

 

Закон Ципфа: зависимость частоты от ранга

Формула зависимости для закона Ципфа с учетом конкретного корпуса

 

Обратно-пропорциональная зависимость между рангом слова (r) и его частотой (f),

k – константа, зависящая от корпуса (абсолютное число употреблений самого частотного слова),

α – степенной параметр, зависящий от грамматического строя языка.

 

Частоты по НЧС РЯ

Чистый Ipm и формула регрессии

Величины, на которых построен график

По НКРЯ видно, что перед нами:

Эмпирическая зависимость, а не строгое соответствие.

Связана с особенностями конкретного языка.

Связана со структурой конкретного корпуса данных.

 

Закон Ципфа

первая тысяча самых частотных слов покрывает от 70 до 90 процентов любого текста (точный процент зависит от выбранного языка и жанра).

чем дальше от начала списка, тем менее предсказуема частота конкретного слова и тем больше она зависит от структуры корпуса.

[Шаров, Ляшевская]: слова неумолимо и подвох входят в число 20 000 самых частотных слов, а слова изворотливый и раскуривать – за пределами 30 000.

Литературоцентричность корпуса. Специфика моделирования языка.

 

Закон Ципфа: дискуссия и опровержение

Американский биолог Ли Вэньтянь попытался опровергнуть закон Ципфа, строго доказав, что случайная последовательность символов подчиняется закону Ципфа. Автор делает гипотетический вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, не имеющим отношения к чисто языковым параметрам.

Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растет при этом номер этого слова в частотном списке. Потому произведение номера слова на его частоту есть константа.

 

Статистика и проблемная область

Корреляционный и регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.

Статистическая корреляция наиболее интересна тогда, когда она указывает на существование закономерной связи между изучаемыми явлениями.

Возвращаемся к проблеме, заявленной ранее

Случайны или существенны отклонения выборочных частот от средней?

Подчиняются ли общему статистическому закону колебания лексических частот, наблюдаемые на материале корпуса, или метрические отклонения в поэтических текстах?

Два направления ответов:

методы статистики

методы проблемной области (филологии)

 

 


Поделиться:



Последнее изменение этой страницы: 2017-04-12; Просмотров: 73; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.017 с.)
Главная | Случайная страница | Обратная связь