Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Оценка качества модели регрессии



Для оценки качества модели множественной регрессии вычисляют коэффициент детерминации R2 и коэффициент множественной корреляции (индекс корреляции) R. Чем ближе к 1 значение этих характеристик, тем выше качество модели.

Значение коэффициентов детерминации и множественной корреляции можно найти в таблице Регрессионная статистика (см. рис. 2) или вычислить по формулам:

а) коэффициент детерминации:

Коэффициент детерминации показывает долю вариации результативного признака под воздействием изучаемых факторов. Следовательно, около 86% вариации зависимой переменной учтено в модели и обусловлено влиянием факторов, включенных в модель;

б) коэффициент множественной корреляции:

= 0, 927.

Коэффициент множественной корреляции показывает высокую тесноту связи зависимой переменной Y с двумя включенными в модель объясняющими факторами.

Точность модели оценим с помощью средней ошибки аппроксимации:

Модель неточная. Фактические значения объема реализации отличаются от расчетных в среднем на 10, 65%.

Оценка значимости уравнения регрессии и его коэффициентов

Проверку значимости уравнения регрессии произведем на основе F-критерия Фишера:

Значение F-критерия Фишера можно найти в таблице Дисперсионный анализ протокола Еxcel (см. рис. 2).

Табличное значение F-критерия при доверительной вероятности α = 0, 95 и числе степеней свободы, равном ν 1 = k = 2 и ν 2 = n – k – 1= 16 – 2 – 1 = 13 составляет 3, 81.

Поскольку Fрасч > Fтабл, уравнение регрессии следует признать значимым, то есть его можно использовать для анализа и прогнозирования.

Оценку значимости коэффициентов полученной модели, используя результаты отчета Excel, можно осуществить тремя способами.

Коэффициент уравнения регрессии признается значимым в том случае, если:

1) наблюдаемое значение t-статистики Стьюдента для этого коэффициента больше, чем критическое (табличное) значение статистики Стьюдента (для заданного уровня значимости, например, α = 0, 05 и числа степеней свободы df = n – k – 1, где n – число наблюдений, а k – число факторов в модели);

2) Р-значение t-статистики Стьюдента для этого коэффициента меньше, чем уровень значимости, например, α = 0, 05;

3) доверительный интервал для этого коэффициента, вычисленный с некоторой доверительной вероятностью (например, 95%), не содержит ноль внутри себя, то есть если нижняя 95% и верхняя 95% границы доверительного интервала имеют одинаковые знаки.

Значимость коэффициентов и проверим по второму и третьему способам, используя данные рис. 2:

Р-значение( )= 0, 00 < 0, 01 < 0, 05.

Р-значение( ) = 0, 00 < 0, 01 < 0, 05.

Следовательно, коэффициенты и значимы при 1%-ном уровне, а тем более при 5%-ном уровне значимости.

Нижние и верхние 95% границы доверительного интервала имеют одинаковые знаки (см. рис. 2), следовательно, коэффициенты и значимы.

 

Определение объясняющей переменной, от которой может зависеть дисперсия случайных возмущений. Проверка выполнения условия гомоскедастичности остатков по тесту Голдфельда–Квандта

При проверке предпосылки МНК о гомоскедастичности остатков в модели множественной регрессии следует вначале определить, по отношению к какому из факторов дисперсия остатков более всего нарушена. Это можно сделать в результате визуального исследования графиков остатков, построенных по каждому из факторов, включенных в модель. Та из объясняющих переменных, от которой больше зависит дисперсия случайных возмущений, и будет упорядочена по возрастанию фактических значений при проверке теста Гольдфельда–Квандта.

Для двухфакторной модели нашего примера графики остатков относительно каждого из двух факторов имеют вид, представленный на рис. 3 (эти графики легко получить в отчете, который формируется в результате использования инструмента Регрессия в пакете Анализ данных ).

 

Рис. 3. Графики остатков по каждому из факторов двухфакторной модели

 

Из графиков на рис. 3 видно, что дисперсия остатков более всего нарушена по отношению к фактору Затраты на рекламу.

Проверим наличие гомоскедастичности в остатках двухфакторной модели на основе теста Гольдфельда–Квандта.

1. Упорядочим переменные Y и по возрастанию фактора (в Excel для этого можно использовать команду Данные Сортировка по возрастанию Х2 ):

Исходные данные

Y X2 X5
Объем реализации Затраты на рекламу Индекс потребительских расходов
4, 0 100, 0
4, 8 98, 4
3, 8 101, 2
8, 7 103, 5
8, 2 104, 1
9, 7 107, 0
14, 7 107, 4
18, 7 108, 5
19, 8 108, 3
10, 6 109, 2
8, 6 110, 1
6, 5 110, 7
12, 6 110, 3
6, 5 111, 8
5, 8 112, 3
5, 7 112, 9

 

Данные, отсортированные по возрастанию Х2

Y X2 X5
3, 8 101, 2
4, 0 100, 0
4, 8 98, 4
5, 7 112, 9
5, 8 112, 3
6, 5 110, 7
6, 5 111, 8
8, 2 104, 1
8, 6 110, 1
8, 7 103, 5
9, 7 107, 0
10, 6 109, 2
12, 6 110, 3
14, 7 107, 4
18, 7 108, 5
19, 8 108, 3

 

2. Уберем из середины упорядоченной совокупности С = 1/4 · n = 1/4 · 16 = 4 значения. В результате получим две совокупности соответственно с малыми и большими значениями Х2.

3. Для каждой совокупности выполним расчеты:

 

Уравнения Y X2 X5 Yp e ê 2
  3, 8 101, 2 157, 9192 –9, 91918 98, 39019
Y = –1588, 77 + 4, 0 100, 0 138, 2998 –12, 29980 151, 28460
+ 4, 458X1 + 4, 8 98, 4 114, 5179 22, 48206 505, 44280
+ 17, 09X2 5, 7 112, 9 366, 3700 17, 62997 310, 81580
  5, 8 112, 3 356, 5603 7, 439672 55, 34873
  6, 5 110, 7 332, 3327 –25, 33270 641, 74750
Сумма           1 763, 03000
             
  9, 7 107, 0 390, 6914 –20, 69140 428, 13250
Y = 2333, 286 + 10, 6 109, 2 354, 0009 12, 99911 168, 97680
+ 4, 64X1 12, 6 110, 3 342, 8479 –11, 84790 140, 37320
– 18, 576X2 14, 7 107, 4 406, 4619 25, 53808 652, 19360
  18, 7 108, 5 404, 5893 40, 41071 1 633, 02600
  19, 8 108, 3 413, 4086 –46, 40860 2 153, 76000
Сумма           5 176, 46200

 

Результаты данной таблицы получены с помощью инструмента Регрессия поочередно к каждой из полученных совокупностей.

4. Найдем отношение полученных остаточных сумм квадратов (в числителе должна быть большая сумма):

F = 5176, 462/1763, 03 = 2, 936117.

5. Вывод о наличии гомоскедастичности остатков делаем с помощью F-критерия Фишера с уровнем значимости α = 0, 05 и двумя одинаковыми степенями свободы , где р – число параметров уравнении регрессии:

Так как , то подтверждается гомоскедастичность в остатках двухфакторной регрессии.

 


Поделиться:



Последнее изменение этой страницы: 2017-03-14; Просмотров: 129; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.012 с.)
Главная | Случайная страница | Обратная связь