Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Проверка значимости модели множественной регрессии и ее параметров
Для оценки значимости параметров уравнения множественной регрессии используют критерий Стьюдента. Напомним, что значимость параметров означает их отличие от нуля с высокой долей вероятности. Нулевой гипотезой в данном случае является утверждение альтернативной . Фактическое значение -критерия определяется по формуле . (27) В формуле (27) под оценкой параметра понимается как коэффициент регрессии, так и свободный член (при ). Величина среднего квадратического отклонения оцениваемого параметра определяется как корень из дисперсии , рассчитанной по формуле (25). Величину называют стандартной ошибкой параметра . Формулу для оценки коэффициента регрессии (т.е. для ) можно привести к виду , (28) где - среднее квадратическое отклонение результативной переменной ; - среднее квадратическое отклонение объясняющей переменной , являющейся сомножителем коэффициента ; - коэффициент детерминации, найденный для уравнения зависимости переменной от переменных , включая ; - коэффициент детерминации, найденный для уравнения зависимости переменной от других переменных , входящих в рассматриваемую модель множественной регрессии. Теоретическое значение -критерия находят по таблице значений критерия Стьюдента для уровня значимости и числа степеней свободы . Уровень значимости представляет собой вероятность ошибки первого рода, т.е. вероятность отвергнуть гипотезу , когда она верна. Как правило, а выбирают равным 0, 1; 0, 05 или 0, 01. Нулевая гипотеза о незначимости параметра отвергается, если выполняется неравенство , (29) где - теоретическое значение критерия Стьюдента. На основе выражения (29) можно построить также доверительный интервал для оцениваемого параметра : . (30) Выражение (2.30) позволяет как оценить значимость параметра, так и дать его экономическую интерпретацию (если оценивается коэффициент регрессии). Очевидно, что параметр будет значим, если в доверительный интервал (30) не входит нуль, т.е. с большой долей вероятности оцениваемый параметр не равен нулю. Так как коэффициент регрессии является абсолютным показателем силы связи, границы доверительного интервала и для него также можно интерпретировать аналогичным образом: с вероятностью при единичном изменении независимой переменной зависимая переменная изменится не меньше, чем на и не больше, чем на . Рассмотрим результаты оценки значимости параметров для примера 2. Стандартные ошибки параметров равны Напомним, что под знаком корня в квадратных скобках стоит элемент матрицы , который находится на пересечении -й строки и -го столбца, номер равен номеру оцениваемого параметра. Фактическое значение критерия Стьюдента равно . Табличное значение t-критерия для и уровне значимости составляет 2, 0153, следовательно, все параметры, кроме свободного члена, значимы . Найдем границы доверительных интервалов для коэффициентов регрессии. Отметим, что, руководствуясь значениями границ доверительных интервалов, можно сделать те же выводы о значимости коэффициентов регрессии (так как нуль не попадает в доверительный интервал). Выводы в данном случае и не могли быть иными, чем при сравнении фактического и табличного значений критерия Стьюдента, так как формула (30) является следствием формулы (29). Дадим экономическую интерпретацию границ доверительных интервалов для коэффициентов регрессии. Коэффициент является характеристикой силы связи между объемом поступления налогов и количеством занятых. С учетом значений границ доверительного интервала для можно сказать, что изменение количества занятых на 1 тыс. человек приведет к изменению (с вероятностью 0, 95 (= )) поступления налогов не менее чем на 3, 56 млн. руб. и не более чем на 21, 34 млн. руб. при неизменном объеме отгрузки в обрабатывающих производствах и производстве энергии. Для двух других коэффициентов регрессии выводы будут следующими. Изменение объема отгрузки в обрабатывающих производствах на 1 млн. руб. приведет к изменению (с вероятностью 0, 95 (= )) поступления налогов не менее чем на 0, 028 млн. руб. и не более чем на 0, 092 млн. руб. при неизменных значениях количества занятых и производства энергии. При изменении производства энергии на 1 млн. руб. поступление налогов изменится (с вероятностью 0, 95 (= )) не менее чем на 0, 13 млн. руб. и не более чем на 0, 18 млн. руб. при неизменных значениях количества занятых и объема отгрузки в обрабатывающих производствах. Как было отмечено выше, при построении модели регрессии с использованием центрированных переменных коэффициенты регрессии не отличаются от коэффициентов регрессии в натуральной форме. Это утверждение относится также к величине стандартных ошибок коэффициентов регрессии и, следовательно, к фактическим значениям критерия Стьюдента. При использовании стандартизованных переменных меняется масштаб их измерения, что приводит к другим, чем в исходной регрессии, значениям параметров (стандартизованных коэффициентов регрессии) и их стандартных ошибок. Однако фактические значения критерия Стьюдента для параметров уравнения в стандартизованном масштабе совпадают с теми значениями, которые были получены по уравнению в натуральном масштабе. Для оценки значимости всего уравнения регрессии в целом используется критерий Фишера (F-критерий), который в данном случае называют также общим F-критерием. Под незначимостью уравнения регрессии понимается одновременное равенство нулю (с высокой долей вероятности) всех коэффициентов регрессии в генеральной совокупности: . Фактическое значение F-критерия определяется как соотношение факторной и остаточной сумм квадратов, рассчитанных по уравнению регрессии искорректированных на число степеней свободы: , (31) где - факторная сумма квадратов; - остаточная сумма квадратов. Теоретическое значение F-критерия находят по таблице значений критерия Фишера для уровня значимости , числа степеней свободы и . Нулевая гипотеза отвергается, если , где - теоретическое значение критерия Фишера. Отметим, что если модель незначима, то незначимы и показатели корреляции, рассчитанные по ней. Действительно, если , то и линия регрессии параллельна оси абсцисс. Кроме того, из системы нормальных уравнений, полученной по методу наименьших квадратов (8), следует, что . При нулевых значения всех коэффициентов регрессии имеем выражение . Тогда , т.е. при равенстве всех коэффициентов регрессии нулю (их статистической незначимости) коэффициент детерминации также будет равен нулю (статистически незначим). Формулу (31) расчета F-критерия можно преобразовать, разделив факторную и остаточную суммы квадратов на общую сумму квадратов: . После простых преобразований получаем выражение . Расчет общего F-критерия можно оформить в виде таблицы дисперсионного анализа (табл. 6). Таблица 6.Анализ статистической значимости модели множественной регрессии
Аналогичную таблицу дисперсионного анализа можно увидеть в результатах компьютерной обработки данных. Ее отличие от приведенной выше таблицы заключается в содержании последнего столбца. В нашем случае это теоретическое значение критерия Фишера. В компьютерных вариантах в последнем столбце приводится значение вероятности допустить ошибку первого рода (отвергнуть верную нулевую гипотезу), которая соответствует фактическому значению F-критерия. В Excel эта величина называется «значимость F». Обозначим величину, выдаваемую компьютером в таблице дисперсионного анализа, как . Ее значение можно проинтерпретировать следующим образом: если теоретическое значение F-критерия равно его фактическому значению, то вероятность ошибки первого рода (уровень значимости) равна . Выбирая для определения табличного значения критерия некий уровень значимости а, мы соглашаемся на величину ошибки, равную . Следовательно, если , то фактическая ошибка будет меньше запланированной и можно говорить о значимости уравнения регрессии при заданном уровне значимости . Проверим на статистическую значимость уравнение регрессии, полученное в примере 2. Фактическое значение F-критерия равно . Табличное значение критерия Фишера для , числа степеней свободы и равно 2, 82. Так как фактическое значение F-критерия больше табличного, уравнение регрессии значимо с вероятностью 1 - = 1 - 0, 05 = 0, 95. Следовательно, значим также коэффициент детерминации, т.е. он с большой долей вероятности отличен от нуля. При использовании опции «Регрессия» в ППП Excel для данного примера получена следующая таблица дисперсионного анализа (табл. 7). Таблица 7.Таблица дисперсионного анализа, полученная при применении опции «Регрессия» в ППП Excel
Фактическое значение F-критерия содержится в предпоследнем столбце данной таблицы. Отметим, что его значение отличается от приведенного выше из-за ошибок округления. В последнем столбце табл. 7 приведена вероятность допустить ошибку первого рода. Она равна 1, 10224Е-12, т.е. 0, 00000000000110224. Нами задана максимальная величина этой вероятности, равная 0, 05. Так как фактическое значение вероятности допустить ошибку первого рода меньше (значительно меньше) установленного нами максимального, нулевая гипотеза о незначимости уравнения регрессии должна быть отвергнута. Популярное:
|
Последнее изменение этой страницы: 2016-03-25; Просмотров: 864; Нарушение авторского права страницы