Оценка качества модели регрессии

⇐ ПредыдущаяСтр 5 из 6Следующая ⇒

Для оценки качества модели множественной регрессии вычисляют коэффициент детерминации R² и коэффициент множественной корреляции (индекс корреляции) R. Чем ближе к 1 значение этих характеристик, тем выше качество модели.

Значение коэффициентов детерминации и множественной корреляции можно найти в таблице Регрессионная статистика (см. рис. 2) или вычислить по формулам:

а) коэффициент детерминации:

Коэффициент детерминации показывает долю вариации результативного признака под воздействием изучаемых факторов. Следовательно, около 86% вариации зависимой переменной учтено в модели и обусловлено влиянием факторов, включенных в модель;

б) коэффициент множественной корреляции:

= 0, 927.

Коэффициент множественной корреляции показывает высокую тесноту связи зависимой переменной Y с двумя включенными в модель объясняющими факторами.

Точность модели оценим с помощью средней ошибки аппроксимации:

Модель неточная. Фактические значения объема реализации отличаются от расчетных в среднем на 10, 65%.

Оценка значимости уравнения регрессии и его коэффициентов

Проверку значимости уравнения регрессии произведем на основе F-критерия Фишера:

Значение F-критерия Фишера можно найти в таблице Дисперсионный анализ протокола Еxcel (см. рис. 2).

Табличное значение F-критерия при доверительной вероятности α = 0, 95 и числе степеней свободы, равном ν ₁ = k = 2 и ν ₂ = n – k – 1= 16 – 2 – 1 = 13 составляет 3, 81.

Поскольку F_расч > F_табл, уравнение регрессии следует признать значимым, то есть его можно использовать для анализа и прогнозирования.

Оценку значимости коэффициентов полученной модели, используя результаты отчета Excel, можно осуществить тремя способами.

Коэффициент уравнения регрессии признается значимым в том случае, если:

1) наблюдаемое значение t-статистики Стьюдента для этого коэффициента больше, чем критическое (табличное) значение статистики Стьюдента (для заданного уровня значимости, например, α = 0, 05 и числа степеней свободы df = n – k – 1, где n – число наблюдений, а k – число факторов в модели);

2) Р-значение t-статистики Стьюдента для этого коэффициента меньше, чем уровень значимости, например, α = 0, 05;

3) доверительный интервал для этого коэффициента, вычисленный с некоторой доверительной вероятностью (например, 95%), не содержит ноль внутри себя, то есть если нижняя 95% и верхняя 95% границы доверительного интервала имеют одинаковые знаки.

Значимость коэффициентов и проверим по второму и третьему способам, используя данные рис. 2:

Р-значение( )= 0, 00 < 0, 01 < 0, 05.

Р-значение( ) = 0, 00 < 0, 01 < 0, 05.

Следовательно, коэффициенты и значимы при 1%-ном уровне, а тем более при 5%-ном уровне значимости.

Нижние и верхние 95% границы доверительного интервала имеют одинаковые знаки (см. рис. 2), следовательно, коэффициенты и значимы.

Определение объясняющей переменной, от которой может зависеть дисперсия случайных возмущений. Проверка выполнения условия гомоскедастичности остатков по тесту Голдфельда–Квандта

При проверке предпосылки МНК о гомоскедастичности остатков в модели множественной регрессии следует вначале определить, по отношению к какому из факторов дисперсия остатков более всего нарушена. Это можно сделать в результате визуального исследования графиков остатков, построенных по каждому из факторов, включенных в модель. Та из объясняющих переменных, от которой больше зависит дисперсия случайных возмущений, и будет упорядочена по возрастанию фактических значений при проверке теста Гольдфельда–Квандта.

Для двухфакторной модели нашего примера графики остатков относительно каждого из двух факторов имеют вид, представленный на рис. 3 (эти графики легко получить в отчете, который формируется в результате использования инструмента Регрессия в пакете Анализ данных ).

Рис. 3. Графики остатков по каждому из факторов двухфакторной модели

Из графиков на рис. 3 видно, что дисперсия остатков более всего нарушена по отношению к фактору Затраты на рекламу.

Проверим наличие гомоскедастичности в остатках двухфакторной модели на основе теста Гольдфельда–Квандта.

1. Упорядочим переменные Y и по возрастанию фактора (в Excel для этого можно использовать команду Данные – Сортировка – по возрастанию Х₂ ):

Исходные данные

Y	X₂	X₅
Объем реализации	Затраты на рекламу	Индекс потребительских расходов
	4, 0	100, 0
	4, 8	98, 4
	3, 8	101, 2
	8, 7	103, 5
	8, 2	104, 1
	9, 7	107, 0
	14, 7	107, 4
	18, 7	108, 5
	19, 8	108, 3
	10, 6	109, 2
	8, 6	110, 1
	6, 5	110, 7
	12, 6	110, 3
	6, 5	111, 8
	5, 8	112, 3
	5, 7	112, 9

Данные, отсортированные по возрастанию Х₂

Y	X₂	X₅
	3, 8	101, 2
	4, 0	100, 0
	4, 8	98, 4
	5, 7	112, 9
	5, 8	112, 3
	6, 5	110, 7
	6, 5	111, 8
	8, 2	104, 1
	8, 6	110, 1
	8, 7	103, 5
	9, 7	107, 0
	10, 6	109, 2
	12, 6	110, 3
	14, 7	107, 4
	18, 7	108, 5
	19, 8	108, 3

2. Уберем из середины упорядоченной совокупности С = 1/4 · n = 1/4 · 16 = 4 значения. В результате получим две совокупности соответственно с малыми и большими значениями Х₂.

3. Для каждой совокупности выполним расчеты:

Уравнения	Y	X₂	X₅	Y_p	e	ê ²
		3, 8	101, 2	157, 9192	–9, 91918	98, 39019
Y = –1588, 77 +		4, 0	100, 0	138, 2998	–12, 29980	151, 28460
+ 4, 458X₁ +		4, 8	98, 4	114, 5179	22, 48206	505, 44280
+ 17, 09X₂		5, 7	112, 9	366, 3700	17, 62997	310, 81580
		5, 8	112, 3	356, 5603	7, 439672	55, 34873
		6, 5	110, 7	332, 3327	–25, 33270	641, 74750
Сумма						1 763, 03000

		9, 7	107, 0	390, 6914	–20, 69140	428, 13250
Y = 2333, 286 +		10, 6	109, 2	354, 0009	12, 99911	168, 97680
+ 4, 64X₁ –		12, 6	110, 3	342, 8479	–11, 84790	140, 37320
– 18, 576X₂		14, 7	107, 4	406, 4619	25, 53808	652, 19360
		18, 7	108, 5	404, 5893	40, 41071	1 633, 02600
		19, 8	108, 3	413, 4086	–46, 40860	2 153, 76000
Сумма						5 176, 46200

Результаты данной таблицы получены с помощью инструмента Регрессия поочередно к каждой из полученных совокупностей.

4. Найдем отношение полученных остаточных сумм квадратов (в числителе должна быть большая сумма):

F = 5176, 462/1763, 03 = 2, 936117.

5. Вывод о наличии гомоскедастичности остатков делаем с помощью F-критерия Фишера с уровнем значимости α = 0, 05 и двумя одинаковыми степенями свободы , где р – число параметров уравнении регрессии:

Так как , то подтверждается гомоскедастичность в остатках двухфакторной регрессии.

⇐ Предыдущая 1 2 3 456 Следующая ⇒

Последнее изменение этой страницы: 2017-03-14; Просмотров: 129; Нарушение авторского права страницы