Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Способы изучения зависимостей между случайными величинами
Корреляционный и регрессионный анализ Корреляция в статистике (от лат. correlatio — соотношение, взаимосвязь), корреляционная зависимость — статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с допустимой степенью точности считать таковыми). Положительная корреляция — связь, при которой увеличение одной переменной связано с увеличением другой. Отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой.
СВЯЗЬ Функциональная Корреляционная Отсутствие связи
Функциональнойназывают такую связь, при которой определённому значению факторного признака соответствует только одно значение результативного.
(Термин «корреляция» в лингвистике) Противопоставленность или сближение единиц языка по определённым свойствам (на всех уровнях языковой системы). Более всего развита теория фонологической корреляции (см. в первую очередь работы Н. С. Трубецкого).
Формальная и содержательная взаимосвязь: ложные корреляции Устойчивая корреляция между двумя случайными величинами является свидетельством существования некоторой статистической связи, но эта связь не обязательно должна иметь причинно-следственный характер. Очевидность корреляции может привести к ложным выводам о наличии причинно-следственной связи между парами признаков!
Статистические методы Для оценивания статистической зависимости между случайными величинами: корреляционный анализ регрессионный анализ Тесно связаны друг с другом.
Корреляционный анализ: определение тесноты связи между двумя или более признаками с помощью специальных коэффициентов. Регрессионный анализ: установление формулы зависимости между рассматриваемыми признаками на основе построения регрессионной модели.
Корреляционный анализ Метод обработки статистических данных, с помощью которого измеряется теснота связи между двумя или более случайными величинами. Полезен, когда необходимо поверить гипотезу о наличии зависимостей между фактами ряда А и ряда Б. Возможен при наличии достаточного количества наблюдений для изучения. Это количество должно не менее чем в 5-6 раз превышать число факторов. Исходная совокупность значений должна быть качественно однородной. Чем больше величина коэффициента корреляции, тем теснее связь между явлениями.
Корреляционный анализ Б. Головин, Н. Барановская: вычисление коэффициентов корреляции на материале частот имен существительных и местоимений в научно-публицистической и художественной речи. Полученные отрицательные коэффициенты (отрицательная корреляция: -0, 9, -0, 82) свидетельствуют о наличии сильной отрицательной зависимости между существительными и местоимениями, т.е. увеличение активности одной части речи за счет другой.
Корреляционный анализ Коэффициенты корреляции относительно просты в подсчете. Простота интерпретации анализа — широкое распространение.
! Еще раз: сам по себе факт корреляционной зависимости не даёт основания утверждать, что величины причинно связаны между собой, а не наблюдается действие третьего фактора.
Регрессионный анализ Статистический метод исследования влияния одной или нескольких независимых переменных X1, X2, X3… Xn на зависимую переменную Y. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными. Цели регрессионного анализа Определение степени детерминированности вариации зависимой. переменной независимыми переменными. Предсказание значения зависимой переменной с помощью независимых. Определение вклада отдельных независимых переменных в вариацию зависимой. Пример регрессионной зависимости Закон Ципфа закономерность распределения частоты слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частоты их использования, то частота n-го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру n (рангу этого слова). Закон носит имя своего первооткрывателя — американского лингвиста Джорджа Ципфа (George Kingsley Zipf) из Гарвардского университета.
Закон Ципфа: зависимость частоты от ранга Формула зависимости для закона Ципфа с учетом конкретного корпуса
Обратно-пропорциональная зависимость между рангом слова (r) и его частотой (f), k – константа, зависящая от корпуса (абсолютное число употреблений самого частотного слова), α – степенной параметр, зависящий от грамматического строя языка.
Частоты по НЧС РЯ Чистый Ipm и формула регрессии Величины, на которых построен график По НКРЯ видно, что перед нами: Эмпирическая зависимость, а не строгое соответствие. Связана с особенностями конкретного языка. Связана со структурой конкретного корпуса данных.
Закон Ципфа первая тысяча самых частотных слов покрывает от 70 до 90 процентов любого текста (точный процент зависит от выбранного языка и жанра). чем дальше от начала списка, тем менее предсказуема частота конкретного слова и тем больше она зависит от структуры корпуса. [Шаров, Ляшевская]: слова неумолимо и подвох входят в число 20 000 самых частотных слов, а слова изворотливый и раскуривать – за пределами 30 000. Литературоцентричность корпуса. Специфика моделирования языка.
Закон Ципфа: дискуссия и опровержение Американский биолог Ли Вэньтянь попытался опровергнуть закон Ципфа, строго доказав, что случайная последовательность символов подчиняется закону Ципфа. Автор делает гипотетический вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, не имеющим отношения к чисто языковым параметрам. Вероятность случайного появления какого-либо слова длиной n в цепочке случайных символов уменьшается с ростом n в той же пропорции, в какой растет при этом номер этого слова в частотном списке. Потому произведение номера слова на его частоту есть константа.
Статистика и проблемная область Корреляционный и регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа. Статистическая корреляция наиболее интересна тогда, когда она указывает на существование закономерной связи между изучаемыми явлениями. Возвращаемся к проблеме, заявленной ранее Случайны или существенны отклонения выборочных частот от средней? Подчиняются ли общему статистическому закону колебания лексических частот, наблюдаемые на материале корпуса, или метрические отклонения в поэтических текстах? Два направления ответов: методы статистики методы проблемной области (филологии)
|
Последнее изменение этой страницы: 2017-04-12; Просмотров: 73; Нарушение авторского права страницы