Линейные регрессионные модели с гетероскедастичными и автокоррелированными остатками.

Итак, при исследовании остатков e_iдолжно проверяться наличие следующих пяти предпосылок МНК:

1) случайный характер остатков;

2) нулевая средняя величина остатков, не зависящая от х_i;

3) гомоскедастичность – дисперсия каждого отклонения e_i одинакова для всех значений х_i;

4) отсутствие автокорреляции остатков – значения остатков e_i распределены независимо друг от друга;

5) остатки подчиняются нормальному распределению.

Если распределение случайных остатков e_i не соответствует некоторым предпосылкам МНК, то следует корректировать модель.

В случае нарушения первых двух предпосылок необходимо либо применять другую функцию, либо вводить дополнительную информацию и заново строить уравнение регрессии.

Пятая предпосылка о нормальном распределении остатков позволяет проводить проверку параметров регрессии и корреляции с помощью критериев t, F. Однако и при нарушении пятой предпосылки МНК оценки регрессии обладают достаточной состоятельностью.

Совершенно необходимым для получения по МНК состоятельных оценок параметров регрессии является соблюдение третьей и четвертой предпосылок.

Если не соблюдается гомоскедастичность, то имеет место гетероскедастичность. Наличие гетероскедастичности может привести к смещенности оценок коэффициентов регрессии, а также к уменьшению их эффективности. Вследствие вышесказанного все выводы, получаемые на основе соответствующих t- и F-статистик, а также интервальные оценки будут ненадежными. Следовательно, статистические выводы, получаемые при стандартных проверках качества оценок, могут быть ошибочными и приводить к неверным заключениям по построенной модели. Вполне вероятно, что стандартные ошибки коэффициентов будут занижены, а следовательно, t-статистики будут завышены. Это может привести к признанию статистически значимыми коэффициентов, таковыми на самом деле не являющихся. В этом случае рекомендуется применять обобщенный метод наименьших квадратов, который заключается в том, что при минимизации суммы квадратов отклонений (5) отдельные ее слагаемые взвешиваются: наблюдениям с большей дисперсией придается пропорционально меньший вес. Чтобы убедиться в гетероскедастичности остатков и, следовательно, в необходимости использования обобщенного МНК, обычно не ограничиваются визуальной проверкой гетероскедастичности, а проводят ее эмпирическое подтверждение, в частности, используют метод Гольдфельда – Квандта. Проиллюстрируем его на примере (табл.7).

Таблица 7.

Поступления налогов в бюджет (y_i – млн.руб.) в зависимости

от численности работающих (х_i – тыс.чел).

№ п/п	х_i	y_i	ŷ _х	e_i

		4, 4	-1, 0	5, 4
		8, 1	2, 5	5, 6
		12, 9	4, 9	8, 0
		20, 8	16, 6	4, 2
		15, 5	19, 0	-3, 5
		28, 8	22, 5	6, 3
		37, 5	41, 4	-3, 9
		48, 7	53, 2	-4, 5
		68, 6	66, 1	2, 5
		104, 6	82, 6	22, 0
		90, 5	88, 5	2, 0
		88, 3	107, 4	-19, 1
		132, 4	120, 4	12, 0
		122, 0	127, 4	-5, 4
		99, 1	131, 0	-31, 9
		114, 2	142, 7	-28, 5
		150, 6	151, 0	-0, 4
		156, 1	171, 0	-14, 9
		209, 5	180, 5	29, 0
		342, 9	327, 8	15, 1
итого		1855, 5	1855, 5	0, 0

По выборочным данным строим уравнение регрессии

ŷ _х = – 4, 565 + 1, 178х.

Теоретические значения ŷ _х и отклонения от них фактических значений e_i приведены в четвертой и пятой колонке табл.7. Очевидно, что остаточные величины e_i обнаруживают тенденцию к росту по мере увеличения х и у. Этот вывод подтверждается и по критерию Гольдфельда – Квандта. Для его применения необходимо выполнить следующие шаги:

- упорядочить n наблюдений по мере возрастания переменной х (выполнено);

- исключить из рассмотрения k центральных наблюдений (рекомендовано при n=60 принимать k=16, при n=30 принимать k=8, при n=20 принимать k=4), в данном случае исключаем строки 9–12;

- разделить совокупность на две группы (по ń =(n – k): 2=8 наблюдений соответственно с малыми и большими значениями фактора х) и определить по каждой из групп уравнения регрессии (результаты в табл.8.);

- определить остаточные суммы квадратов для первой (S₁) и второй (S₂) групп и найти их отношение R=S₂: S₁. Чем больше величина R превышает табличное значение F–критерия с ń –2 степенями свободы (приложение 2), тем более нарушена предпосылка о равенстве дисперсий остаточных величин, т.е. наблюдается гетероскедастичность остатков.

Таблица 8.

№ п/п	х_i	y_i	ŷ _х	e_i	e_i²
		4, 4	5, 7	–1, 3	1, 69
		8, 1	8, 5	–0, 4	0, 16
		12, 9	10, 3	2, 6	6, 76
		20, 8	19, 6	1, 2	1, 44
		15, 5	21, 4	–5, 9	34, 81
		28, 8	24, 2	4, 6	21, 16
		37, 5	38, 9	–1, 4	1, 96
		48, 7	48, 1	0, 6	0, 36
Уравнение регрессии: ŷ _х = 2, 978 + 0, 921х. Сумма S₁=68, 34
		132, 4	110, 7	21, 7	470, 89
		122, 0	118, 7	3, 3	10, 89
		99, 1	122, 7	–23, 6	556, 96
		114, 2	136, 1	–21, 9	479, 61
		150, 6	145, 4	5, 2	27, 04
		156, 1	168, 2	–12, 1	146, 41
		209, 5	178, 9	30, 6	936, 36
		342, 9	346, 1	–3, 2	10, 24
Уравнение регрессии: ŷ _х = 31, 142 + 1, 338х. Сумма S₂ =2638, 4

Величина R=2638, 4: 68, 34=38.6 существенно превышает табличное значение F-критерия 4, 28 при 5%-ном и 8, 47 при 1%-ном уровне значимости для числа степеней свободы 8 – 2 = 6, подтверждая тем самым наличие гетероскедастичности.

Нарушение четвертой предпосылки МНК – автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений. Среди основных причин, вызывающих появление автокорреляции, можно выделить ошибки спецификации, инерцию в изменении экономических показателей, эффект паутины, сглаживание данных.

Ошибки спецификации. Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы зависимости обычно приводит к системным отклонениям точек наблюдений от линии регрессии, что может обусловить автокорреляцию.

Инерция. Многие экономические показатели (например, инфляция, безработица, ВНП и т.п.) обладают определенной цикличностью, связанной с волнообразностью деловой активности. Действительно, экономический подъем приводит к росту занятости, сокращению инфляции, увеличению ВНП и т.д. Этот рост продолжается до тех пор, пока изменение конъюнктуры рынка и ряда экономических характеристик не приведет к замедлению роста, затем остановке и движению вспять рассматриваемых показателей. В любом случае эта трансформация происходит не мгновенно, а обладает определенной инертностью.

Эффект паутины. Во многих производственных и других сферах экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом). Например, предложение сельскохозяйственной продукции реагирует на изменение цены с запаздыванием (равным периоду созревания урожая). Большая цена сельскохозяйственной продукции в прошедшем году вызовет (скорее всего) ее перепроизводство в текущем году, а следовательно, цена на нее снизится и т.д.

Сглаживание данных. Зачастую данные по некоторому продолжительному временному периоду получают усреднением данных по составляющим его подинтервалам. Это может привести к определенному сглаживанию колебаний, которые имелись внутри рассматриваемого периода, что в свою очередь может послужить причиной автокорреляции.

Последствия автокорреляции во многом сходны с последствиями гетероскедастичности. Среди них при применении МНК обычно выделяются следующие.

1. Оценки параметров, оставаясь линейными и несмещенными, перестают быть эффективными. Следовательно, они перестают обладать свойствами наилучших линейных несмещенных оценок.

2. Дисперсии оценок являются смешенными. Часто дисперсии, вычисленные по стандартным формулам, являются заниженными, что влечет за собой увеличение t-статистик. Это может привести к признанию статистически значимыми объясняющие переменные, которые в действительности таковыми могут не являться.

3. Оценка дисперсии регрессии является смещенной оценкой истинного значения дисперсии, во многих случаях занижая его.

В силу вышесказанного выводы по t- и F-статистикам, определяющим значимость коэффициентов регрессии и коэффициента детерминации, возможно, будут неверными. Вследствие этого ухудшаются прогнозные качества модели.

Для обнаружения автокорреляции необходимо наблюдения упорядочить по значению фактора х (как в предыдущем примере) и составить ряды с текущими и предыдущими остатками. Коэффициент корреляции r_ei_e_j между e_i и e_j, где e_i – остатки текущих наблюдений, e_j – остатки предыдущих наблюдений (например, j=i–1) определяется по обычной формуле линейного коэффициента корреляции (2).Рассмотрим расчет коэффициента корреляции между e_i и e_j, взяв в качестве примера данные из табл.7 и перенеся их в табл. 9 (n=19).

Таблица 9.

№ п/п	e_i	e_i-1	e_ie_i-1
	5, 6	5, 4	30.24
	8, 0	5, 6	44.8
	4, 2	8, 0	33.6
	–3, 5	4, 2	–14.7
	6, 3	–3, 5	–22.05
	–3, 9	6, 3	–24.57
	–4, 5	–3, 9	17.55
	2, 5	–4, 5	–11.25
	22, 0	2, 5
	2, 0	22, 0
	–19, 1	2, 0	–38.2
	12, 0	–19, 1	–229.2
	–5, 4	12, 0	–64.8
	–31, 9	–5, 4	172.26
	–28, 5	–31, 9	909.15
	–0, 4	–28, 5	11.4
	–14, 9	–0, 4	5.96
	29, 0	–14, 9	–432.1
	15, 1	29, 0
итого	–5.3998	–15.1031	922.09
среднее	–0, 2842	–0, 7949	48.5311

σ _ei =15.1347, σ _e_j =14, 7663 и в соответствие с (2)

r_ei_e_j =(48, 5311 – (–0, 2842)(–0, 7949))/15, 1347/14, 7663=0, 2161,

что при 17 степенях свободы явно незначимо и демонстрирует отсутствие автокорреляции остатков.

Автокорреляция остатков может быть вызвана несколькими причинами, имеющими различную природу. Во-первых, иногда она связана с исходными данными и вызвана наличием ошибок измерения в значениях результативного признака. Во-вторых, причину следует искать в формулировке модели, которая может не включать существенный фактор, влияние которого отражается в остатках, вследствие чего они оказываются автокоррелированными. Очень часто этим фактором является фактор времени, поэтому проблема автокорреляции остатков весьма актуальна при исследовании динамических рядов, что мы рассмотрим в соответствующем разделе.

⇐ Предыдущая 4 5 6 7 8910 11 12 13 Следующая ⇒