Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Проверка значимости модели множественной регрессии и ее параметров



Для оценки значимости параметров уравнения множествен­ной регрессии используют критерий Стьюдента. Напомним, что значимость параметров означает их отличие от нуля с высокой долей вероятности. Нулевой гипотезой в данном случае является утверждение

альтернативной

.

Фактическое значение -критерия определяется по формуле

. (27)

В формуле (27) под оценкой параметра понимается как коэффициент регрессии, так и свободный член (при ). Величина среднего квадратического отклонения оцениваемо­го параметра определяется как корень из дисперсии , рас­считанной по формуле (25). Величину называют стан­дартной ошибкой параметра .

Формулу для оценки коэффициента регрессии (т.е. для ) можно привести к виду

, (28)

где - среднее квадратическое отклонение результативной пере­менной ; - среднее квадратическое отклонение объясняющей переменной , являющейся сомножителем коэффициента ; - коэффициент детерминации, найденный для уравнения зависимости переменной от переменных , включая ; - коэффициент детерминации, найденный для уравнения зависимости переменной от других переменных , входящих в рассматри­ваемую модель множественной регрессии.

Теоретическое значение -критерия находят по таблице зна­чений критерия Стьюдента для уровня значимости и числа степеней свободы . Уровень значимости пред­ставляет собой вероятность ошибки первого рода, т.е. вероят­ность отвергнуть гипотезу , когда она верна. Как правило, а выбирают равным 0, 1; 0, 05 или 0, 01.

Нулевая гипотеза о незначимости параметра отвергает­ся, если выполняется неравенство

, (29)

где - теоретическое значение критерия Стьюдента.

На основе выражения (29) можно построить также дове­рительный интервал для оцениваемого параметра :

. (30)

Выражение (2.30) позволяет как оценить значимость па­раметра, так и дать его экономическую интерпретацию (если оценивается коэффициент регрессии). Очевидно, что пара­метр будет значим, если в доверительный интервал (30) не входит нуль, т.е. с большой долей вероятности оценивае­мый параметр не равен нулю.

Так как коэффициент регрессии является абсолютным пока­зателем силы связи, границы доверительного интервала и для него также можно интерпретировать аналогичным образом: с вероятностью при единичном изменении не­зависимой переменной зависимая переменная изменится не меньше, чем на и не больше, чем на .

Рассмотрим результаты оценки значимости параметров для примера 2. Стандартные ошибки параметров равны

Напомним, что под знаком корня в квадратных скобках сто­ит элемент матрицы , который находится на пересечении -й строки и -го столбца, номер равен номеру оценива­емого параметра.

Фактическое значение критерия Стьюдента равно

.

Табличное значение t-критерия для и уров­не значимости составляет 2, 0153, следовательно, все параметры, кроме свободного члена, значимы .

Найдем границы доверительных интервалов для коэффи­циентов регрессии.


.

Отметим, что, руководствуясь значениями границ довери­тельных интервалов, можно сделать те же выводы о значимос­ти коэффициентов регрессии (так как нуль не попадает в до­верительный интервал). Выводы в данном случае и не могли быть иными, чем при сравнении фактического и табличного значений критерия Стьюдента, так как формула (30) явля­ется следствием формулы (29). Дадим экономическую ин­терпретацию границ доверительных интервалов для коэффи­циентов регрессии.

Коэффициент является характеристикой силы связи между объемом поступления налогов и количеством занятых. С уче­том значений границ доверительного интервала для мож­но сказать, что изменение количества занятых на 1 тыс. че­ловек приведет к изменению (с вероятностью 0, 95 (= )) поступления налогов не менее чем на 3, 56 млн. руб. и не бо­лее чем на 21, 34 млн. руб. при неизменном объеме отгрузки в обрабатывающих производствах и производстве энергии. Для двух других коэффициентов регрессии выводы будут сле­дующими.

Изменение объема отгрузки в обрабатывающих производс­твах на 1 млн. руб. приведет к изменению (с вероятностью 0, 95 (= )) поступления налогов не менее чем на 0, 028 млн. руб. и не более чем на 0, 092 млн. руб. при неизменных значениях количества занятых и производства энергии.

При изменении производства энергии на 1 млн. руб. по­ступление налогов изменится (с вероятностью 0, 95 (= )) не менее чем на 0, 13 млн. руб. и не более чем на 0, 18 млн. руб. при неизменных значениях количества занятых и объема от­грузки в обрабатывающих производствах.

Как было отмечено выше, при построении мо­дели регрессии с использованием центрированных пере­менных коэффициенты регрессии не отличаются от коэффи­циентов регрессии в натуральной форме. Это утверждение относится также к величине стандартных ошибок коэффици­ентов регрессии и, следовательно, к фактическим значениям критерия Стьюдента.

При использовании стандартизованных переменных ме­няется масштаб их измерения, что приводит к другим, чем в ис­ходной регрессии, значениям параметров (стандартизованных коэффициентов регрессии) и их стандартных ошибок. Однако фактические значения критерия Стьюдента для параметров уравнения в стандартизованном масштабе совпадают с теми значениями, которые были получены по уравнению в нату­ральном масштабе.

Для оценки значимости всего уравнения регрессии в целом используется критерий Фишера (F-критерий), который в дан­ном случае называют также общим F-критерием. Под незна­чимостью уравнения регрессии понимается одновременное равенство нулю (с высокой долей вероятности) всех коэффи­циентов регрессии в генеральной совокупности:

.

Фактическое значение F-критерия определяется как соотно­шение факторной и остаточной сумм квадратов, рассчитан­ных по уравнению регрессии искорректированных на число степеней свободы:

, (31)

где - факторная сумма квадратов; - остаточная сумма квадратов.

Теоретическое значение F-критерия находят по таблице зна­чений критерия Фишера для уровня значимости , числа сте­пеней свободы и . Нулевая гипотеза от­вергается, если

,

где - теоретическое значение критерия Фишера.

Отметим, что если модель незначима, то незначимы и показа­тели корреляции, рассчитанные по ней. Действительно, если

,

то

и линия регрессии параллельна оси абсцисс. Кроме того, из систе­мы нормальных уравнений, полученной по методу наименьших квадратов (8), следует, что

.

При нулевых значения всех коэффициентов регрессии име­ем выражение

.

Тогда

,

т.е. при равенстве всех коэффициентов регрессии нулю (их ста­тистической незначимости) коэффициент детерминации так­же будет равен нулю (статистически незначим).

Формулу (31) расчета F-критерия можно преобразовать, разделив факторную и остаточную суммы квадратов на об­щую сумму квадратов:

.

После простых преобразований получаем выражение

.

Расчет общего F-критерия можно оформить в виде табли­цы дисперсионного анализа (табл. 6).

Таблица 6.Анализ статистической значимости модели множест­венной регрессии

Источ­ники вариа­ции     Число степе­ней сво­боды     Сумма квадратов     Диспер­сия на од­ну степень свободы     F-критерий Фишера
фактическое значение табличное значение для
Общая      
Регрес­сия
Оста­точная    

Аналогичную таблицу дисперсионного анализа можно уви­деть в результатах компьютерной обработки данных. Ее отличие от приведенной выше таблицы заключается в содержании пос­леднего столбца. В нашем случае это теоретическое значение критерия Фишера. В компьютерных вариантах в последнем столбце приводится значение вероятности допустить ошибку первого рода (отвергнуть верную нулевую гипотезу), которая соответствует фактическому значению F-критерия. В Excel эта величина называется «значимость F». Обозначим величину, выдаваемую компьютером в таблице дисперсионного анали­за, как . Ее значение можно проинтерпретировать следую­щим образом: если теоретическое значение F-критерия равно его фактическому значению, то вероятность ошибки первого рода (уровень значимости) равна .

Выбирая для определения табличного значения критерия некий уровень значимости а, мы соглашаемся на величину ошибки, равную . Следовательно, если , то факти­ческая ошибка будет меньше запланированной и можно гово­рить о значимости уравнения регрессии при заданном уров­не значимости .

Проверим на статистическую значимость уравнение ре­грессии, полученное в примере 2. Фактическое значение F-критерия равно

.

Табличное значение критерия Фишера для , числа степеней свободы и равно 2, 82. Так как фак­тическое значение F-критерия больше табличного, уравне­ние регрессии значимо с вероятностью 1 - = 1 - 0, 05 = 0, 95. Следовательно, значим также коэффициент детерминации, т.е. он с большой долей вероятности отличен от нуля.

При использовании опции «Регрессия» в ППП Excel для дан­ного примера получена следующая таблица дисперсионного анализа (табл. 7).

Таблица 7.Таблица дисперсионного анализа, полученная при при­менении опции «Регрессия» в ППП Excel

Дисперсионный анализ
  Значимость
Регрессия 3 652 714 368 1 217 517 456 40, 31035571 1, 10224Е-12
Остаток 1 329 016 902 30 204 929, 59    
Итого 4 981 731 270      

Фактическое значение F-критерия содержится в предпос­леднем столбце данной таблицы. Отметим, что его значе­ние отличается от приведенного выше из-за ошибок округ­ления. В последнем столбце табл. 7 приведена вероятность допустить ошибку первого рода. Она равна 1, 10224Е-12, т.е. 0, 00000000000110224. Нами задана максимальная величи­на этой вероятности, равная 0, 05. Так как фактическое зна­чение вероятности допустить ошибку первого рода меньше (значительно меньше) установленного нами максимального, нулевая гипотеза о незначимости уравнения регрессии долж­на быть отвергнута.


Поделиться:



Популярное:

Последнее изменение этой страницы: 2016-03-25; Просмотров: 864; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.021 с.)
Главная | Случайная страница | Обратная связь