Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Выборочного коэффициента корреляции.
Выборочный коэффициент корреляции, найденный по выборочным данным, является точечной оценкой коэффициента корреляции генеральной совокупности и является случайной величиной. Пусть по выборке объема n найден выборочный коэффициент корреляции , который оказался отличным от нуля. Так как выборка выбрана случайно, то еще нельзя заключить, что коэффициент корреляции генеральной совокупности также отличен от нуля. В конечном итоге нас интересует именно этот коэффициент, поэтому возникает необходимость при заданном уровне значимости проверить нулевую гипотезу о равенстве нулю генерального коэффициента корреляции при конкурирующей гипотезе . Если нулевая гипотеза отвергается, то это означает, что выборочный коэффициент корреляции значимо отличается от нуля (кратко говоря, значим), а случайные величины X и Y коррелированы, т.е. связаны линейной корреляционной зависимостью. Если нулевая гипотеза будет принята, то выборочный коэффициент корреляции незначим, а X и Y некоррелированны, т.е. не связаны линейной зависимостью, хотя могут быть связаны другой корреляционной зависимостью. В качестве критерия проверки нулевой гипотезы используется случайная величина: (1.8) При справедливости нулевой гипотезы эта случайная величина имеет распределение Стьюдента с степенями свободы. Критическая область является двусторонней. Обозначим значение критерия, вычисленное по данным наблюдений по формуле (1.8), через . По таблице критических точек распределения Стьюдента по заданному уровню значимости и числу степеней свободы находим критическую точку для двусторонней критической области. Если , то нет основания отвергнуть нулевую гипотезу. Если , то нулевую гипотезу отвергают.
Пример 2. По данным примера 1 , , вычислим коэффициент корреляции . Найдем наблюдаемое значение критерия . По уровню значимости и числу степеней свободы находим критическую точку . Поскольку , то нулевую гипотезу отвергаем. Следовательно, выборочный коэффициент корреляции значимо отличается от нуля, т.е. объем продажи продукции и затраты на рекламу коррелированы.
Связь между коэффициентом корреляции и Угловым коэффициентом линейного уравнения регрессии.
Напомним формулы для вычисления коэффициента корреляции и коэффициента а уравнение регрессии Отсюда (1.9) Тогда линейное уравнение регрессии можно записать в виде Понятие коэффициента детерминации. Декомпозиция дисперсий.
Наряду с коэффициентом корреляции используется еще один критерий, с помощью которого также оценивается теснота связи между двумя или большим числом показателей и проверяется адекватность построенной регрессионной модели реальной действительности. Таким образом дается ответ на вопрос, действительно ли изменение значений случайной величины Y линейно зависит именно от изменения случайной величины Х, а не происходит под действием других случайных величин. Таким критерием является коэффициент детерминации. Прежде чем рассматривать, что представляет собой коэффициент детерминации и как он связан с коэффициентом корреляции, рассмотрим вопрос о декомпозиции дисперсий, который является центральным в статистике. Сначала попытаемся уяснить, как можно разбить на две части отклонение фактических значений независимой переменной у от значений, которые находятся по построенной регрессионной прямой (теоретических значений). y
0 x Рис. 1.3. Декомпозиция отклонений фактических значений от теоретических. Как видно из рисунка 1.3, такие отклонения можно записать в виде: Отсюда (1.10) В статистике разность называют общим отклонением. Разность называют отклонением, которое можно пояснить, исходя из уравнения регрессии. Разность называют отклонением, которое нельзя пояснить, исходя из уравнения регрессии, или необъяснимым отклонением. Возведем обе части равенства (1.10) в квадрат (1.11) Упростим вторую сумму в правой части
т.к. в силу (1.4) . Формула (1.11) принимает вид (1.12) Здесь – общая сумма квадратов, которая обычно обозначается SST; – сумма квадратов ошибок, которая обозначается SSE; – сумма квадратов, которая объясняет регрессию и обозначается через SSR. Таким образом, формулу (1.12) можно переписать в виде . Разделив обе части в формуле (1.11) на n, получим выражение для дисперсий: (1.13)
, (1.14) где – общая дисперсия, – дисперсия ошибок, – дисперсия, которая поясняет регрессию. Разделив обе части (1.14) на , получим (1.15) Первое слагаемое в правой части формулы (1.15) представляет собой часть дисперсии, которую нельзя объяснить через регрессионную связь. Второе слагаемое является составной частью дисперсии, которую можно пояснить через линию регрессии. Часть дисперсии, которая объясняет регрессию, называется коэффициентом детерминации и обозначается . Коэффициент детерминации используется как критерий адекватности модели, поскольку является мерой объяснимой силы независимой переменной х. Таким образом, коэффициент детерминации можно записать в виде двух эквивалентных выражение: (1.16) или (1.17) Из (1.15) вытекает, что коэффициент детерминации всегда положительный и не превосходит 1 ( ). Индексом корреляции называется квадратный корень из коэффициента детерминации.
Популярное:
|
Последнее изменение этой страницы: 2016-05-03; Просмотров: 972; Нарушение авторского права страницы