Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Проверка значимости коэффициентов корреляции и детерминации
Оценки коэффициентов корреляции и детерминации сами являются случайными величинами, так как для различных выборок из одной и той же генеральной совокупности могут принимать различные значения. При малых объемах выборок эти различия будут особенно существенными. Поэтому более надежным является нахождение интервальных оценок коэффициентов корреляции (или детерминации). Достаточно часто при нахождении оценок коэффициентов корреляции и детерминации используется проверка значимости этих оценок, которая позволяет сделать вывод о существенности описания действительной зависимости уравнением регрессии. Фактически, проверка значимости коэффициентов корреляции и детерминации соответствует нахождению интервальных оценок этих коэффициентов и анализу принадлежности этому интервалу значения r = 0 и R2 = 0 соответственно, но выполняется по более простому алгоритму. Проверка значимости позволяет сделать вывод либо о существенности описания зависимости уравнением регрессии, либо о том, что данное уравнение практически никак не определяет существующую зависимость между с. в., а ненулевые значения коэффициентов корреляции и/или детерминации обусловлены только лишь случайностью выборки. Проверка значимости .Чтобы сделать статистический вывод о значимости коэффициента корреляции (при проверке линейности регрессионной зависимости) выдвигается нулевая гипотеза об отсутствии линейной зависимости между исследуемыми с. в. (т. е. H0: r = 0, Ha: r ¹ 0). Если гипотеза H0отклоняется, то считается, что уравнение регрессии Y по X действительно имеет линейный вид. Для проверки гипотезы H0 вычисляется t-статистика
. (4.8)
При условии справедливости гипотезы H0 рассчитанная t-статистика имеет распределение Стьюдента с n – 2 степенями свободы. Найденное по формуле (8) значение t' сравнивается с критическим значением ta, n при n = n – 2 степенях свободы (см. приложение Д). Если расчетное значение t' по абсолютной величине превосходит табличное для заданного уровня значимости, то нулевая гипотеза H0 о линейной независимости двух с. в. отклоняется. Проверка значимости . Характеристикой, измеряющей тесноту связи двух с. в., близость ее к выбранной функции регрессии , отличной от линейной, является коэффициент детерминации. При выполнении процедуры проверки значимости коэффициента детерминации выдвигается нулевая гипотеза о том, что предложенное уравнение регрессии никак не отражает реальную зависимость между с. в., т. е. H0: R2 = 0. Альтернативная гипотеза заключается в том, что выбранная модель зависимости (уравнение регрессии) в достаточной степени объясняет действительную зависимость между случайными величинами, т. е. H0: R2 > > 0. Для проверки значимости оценки коэффициента детерминации используется статистика , (4.9) имеющая F-распределение Фишера с n1 = m – 1 и n2 = n – m степенями свободы. Здесь m – число неизвестных параметров предполагаемого уравнения регрессии. Значение статистики сравнивается с критическим значением Fn1, n2, a, найденным по таблицам квантилей распределения Фишера (приложение Е) при заданном уровне значимости и соответствующем числе степеней свободы. Если F > Fn1, n2, a, то нулевая гипотеза отклоняется, вычисленный коэффициент детерминации значимо отличается от нуля, и с вероятностью ошибки a можно утверждать, что между исследуемыми величинами существует зависимость предложенного вида, и полученное уравнение регрессии может использоваться в дальнейших исследованиях.
Лабораторная работа № 3 Построение регрессионной модели Цель работы: изучить основные методы регрессионного и корреляционного анализа; исследовать зависимость между двумя случайными величинами, заданными выборками. Задание: по виду корреляционного поля сделать предположение о форме регрессионной зависимости между двумя случайными величинами; используя метод наименьших квадратов, найти параметры уравнения регрессии; оценить качество описания зависимости полученным уравнением регрессии. Пример. По результатам пятнадцати совместных измерений веса грузового поезда, т, и соответствующего времени нахождения поезда на участке Y, ч, представленных в таблице 4.3, следует исследовать зависимость между данными величинами. Необходимо определить коэффициенты уравнения регрессии методом наименьших квадратов, оценить тесноту связи между величинами, проверить значимость коэффициента корреляции и спрогнозировать время нахождения поезда на участке при заданном весе поезда (5200 т). Решение. На величину времени нахождения поезда на участке Y, помимо веса X, влияние оказывает качество железнодорожного полотна, качество подвижного состава, топливо и другие факторы. Поэтому зависимость между величиной времени нахождения поезда на участке Y и веса поезда X является статистической: при одном весе поезда при различных дополнительных условиях время нахождения поезда на участке может принимать различные значения. Для определения вида регрессионной зависимости построим корреляционное поле. Рисунок 4.3– Корреляционное поле
Построение линейной модели
Характер расположения точек на диаграмме рассеяния позволяет сделать предположение о линейной регрессионной зависимости .
Таблица 4.3 – Результаты промежуточных вычислений
Найдем уравнение прямой линии методом наименьших квадратов . Средний вес грузового состава: = . Среднее значение времени нахождения поезда на участке: = Коэффициенты уравнения:
Уравнение регрессии имеет вид: . Для линейной связи коэффициенты: - постоянная регрессии, показывает точку пересечения прямой с осью ординат - коэффициент регрессии, показывает меру зависимости переменных y от х, указывает среднюю величину изменения переменной у при изменении х на одну единицу, знак В1 определяет направление этого изменения. Вычислим линейный коэффициент корреляции = .
Таблица 4.4 – Расчет значений времени нахождения поезда на участке по уравнению регрессии
Рисунок 4.3– Корреляционное поле и линия регрессии
Спрогнозируем время нахождения поезда на участке при заданном весе грузового состава (5200 т).
Качественная оценка тесноты связи между величинами выявляна по шкале Чеддока (таблица 4.1).
Multiple Regression - Col_2 Dependent variable: Col_2 Independent variables: Col_1
Analysis of Variance
R-squared = 94, 8782 percent R-squared (adjusted for d.f.) = 94, 4842 percent Standard Error of Est. = 0, 0251778 Mean absolute error = 0, 0169255 Durbin-Watson statistic = 1, 36787 (P=0, 0913) Lag 1 residual autocorrelation = 0, 0654037
The StatAdvisor The output shows the results of fitting a multiple linear regression model to describe the relationship between Col_2 and 1 independent variables. The equation of the fitted model is
Col_2 = 2, 93509 + 0, 00023564*Col_1
Since the P-value in the ANOVA table is less than 0, 05, there is a statistically significant relationship between the variables at the 95, 0% confidence level.
Вывод. Линейный коэффициент корреляции характеризует тесноту связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости. Т.к. = 0, 974, то можно говорить о том, что между величинами X и Y существует линейная прямая, весьма высокая связь.
Чтобы сделать статистический вывод о значимости коэффициента корреляции (при проверке линейности регрессионной зависимости) выдвигается нулевая гипотеза об отсутствии линейной зависимости между исследуемыми с. в. против альтернативной гипотезы о наличии линейной связи. , .
Если гипотеза H0отклоняется, то считается, что уравнение регрессии Y по X действительно имеет линейный вид. Для проверки гипотезы H0 вычисляется t-статистика = . При условии справедливости гипотезы H0 рассчитанная t-статистика имеет распределение Стьюдента с n – 2 степенями свободы. Найденное значение t = 15, 501сравнивается с критическим значением ta, n при n = n – 2 = 15-2 = 13 степенях свободы (приложение Д). В нашем случае ta, n = t a=0.05, n=13 = 1, 771. Так как расчетное значение 15, 501по абсолютной величине превосходит табличное 1, 771 для заданного уровня значимости, то нулевая гипотеза H0 о линейной независимости двух с. в. отклоняется. |
Последнее изменение этой страницы: 2017-05-05; Просмотров: 783; Нарушение авторского права страницы