Гетероскедастичность и методы ее выявления. Оценивание регрессии в условиях гетероскедастичности ошибок

⇐ ПредыдущаяСтр 7 из 7

Гетероскедастичность (англ. Heterosсedasticity) — понятие, используемое в эконометрике, означающее неоднородность наблюдений, выражающаяся в неодинаковой (непостоянной) дисперсии случайной ошибки регрессионной (эконометрической) модели. Гетероскедастичность противоположна понятию гомоскедастичность, которое означает однородность наблюдений, то есть постоянство дисперсии случайных ошибок модели.

Наличие гетероскедастичности случайных ошибок приводит к неэффективности оценок, полученных с помощью метода наименьших квадратов. Кроме того, в этом случае оказывается смещённой и несостоятельной классическая оценка ковариационной матрицы МНК-оценок параметров. Следовательно статистические выводы о качестве полученных оценок могут быть неадекватными. В связи с этим тестирование моделей на гетероскедастичность является одной из необходимых процедур при построении регрессионных моделей.

К тестам, позволяющим выявить наличие гетероскедастичности случайных остатков, относят тесты Гольдфельда — Квандта, Парка, Глейзера, Уайта, Бреуша — Патана, ранговой корреляции Спирмена и т.д.

Тест Гольдфельда—Квандта применяется, если случайные остатки предполагаются нормально распределенными величинами и объем наблюдений достаточно большой. Процедура проверки следующая.

1. Все наблюдения упорядочивают по мере возрастания какой-либо независимой переменной, которая, как предполагается, оказывает влияние на изменение дисперсии случайных остатков.

2. Упорядоченную совокупность делят на три группы, причем первая и последняя должны быть равного объема, с числом наблюдений, больших, чем число параметров модели регрессии. Пусть в первую и третью группы отобрано по к наблюдений.

3. По первой и третьей группам находят параметры уравнений регрессии той же структуры, что и исходное уравнение регрессии, и остаточные суммы квадратов по каждой модели.

4. Используя данные об остаточных суммах квадратов моделей первой и третьей групп, рассчитывают фактическое значение F-критерия Фишера по формуле

где - большая остаточная сумма квадратов; - меньшая остаточная сумма квадратов.

5. Сравнивают фактическое значение F-критерия с табличным, найденным для степеней свободы. Если F-фактическое больше табличного, то гипотеза об отсутствии гетероскедастичности отклоняется.

Тесты Парка, Глейзера, Уайта и Бреуша — Пагана основываются на предположении, что дисперсия случайных остатков представляет собой определенную функцию от некоторой независимой переменной (или переменных). Перед применением этих тестов по уравнению регрессии необходимо рассчитать случайные остатки .

Для теста Парка строят зависимость вида

, (69)

где - -e значение - независимой переменной, оказывающей влияние на дисперсию остатков; - случайный остаток.

По тесту Глейзера находят параметры целой серии уравнений, задаваемых функцией

, (70)

где - какое-либо число, например и т.п.

Тест Уайта заключается в построении квадратичной функции, включающей все независимые переменные, входящие в исходную модель, а также их попарные произведения. Включение попарных произведений независимых переменных является необязательным, их можно опустить. Для случая с двумя переменными эта функция будет иметь вид

, (71)

где - неизвестные параметры.

Тест Бреуша — Пагана предполагает исследование влияния на дисперсию остатков нескольких независимых переменных, которые включают в регрессию вида

(72)

где - -e значениям -й, -й, -й независимых переменных, оказывающих влияние на дисперсию остатков; - оценка дисперсии случайных остатков, рассчитанная по формуле

Остатки считаются гетероскедастичными, если параметр в функциях по тесту Парка (69) или тесту Глейзера (70) значим (для теста Глейзера — хотя бы при одном значении ). При проверке по тесту Уайта говорят, что остатки гетероскедастичны, если вся функция (71) значима по F-критерию Фишера.

Проверка гетероскедастичности по тесту Бреуша — Пагана заключается в расчете по функции (72) факторной суммы квадратов

где переменная .

Далее рассчитывается фактическое значение критерия по формуле

которое сравнивается с табличным (число степеней свободы равно , т.е. числу независимых переменных в модели (72); уровень значимости равен . Нулевая гипотеза о гомоскедастичности случайных остатков отвергается, если

Тест ранговой корреляции Спирмена, так же как и ранее рассмотренные тесты, основывается на предположении о зависимости (прямой или обратной) величины дисперсии случайных остатков от значений какой-либо независимой переменной. Для проведения проверки по этому тесту значения случайных остатков, взятые по модулю, и значения этой переменной ранжируют (например, по возрастанию), а затем находят коэффициент корреляции рангов Спирмена

где — разность между рангами -гo случайного остатка и -гo значения независимой переменной.

Полученное значение коэффициента корреляции проверяют на значимость, рассчитывая фактическое значение - критерия Стьюдента (73) и сравнивая его с табличным значением при числе степеней свободы .

. (73)

Если фактическое значение критерия больше табличного, то гипотеза о гомоскедастичности остатков отклоняется.

Проверим на гетероскедастичность модель регрессии из нашего примера:

Рассчитаем случайные остатки для этой модели (табл. 9).

Таблица 9. Расчет случайных остатков для модели регрессии поступления налогов от количества занятых, объема отгрузки в обрабатывающих производствах и производства энергии


1422, 20	4804, 33	-3382, 13	16 868, 50	14 895, 12	1973, 38
2529, 70	5056, 17	-2526, 47	18 019, 40	13 781, 67	4237, 73
2629, 10	5144, 80	-2515, 70	18 950, 30	27 753, 87	-8803, 57
2764, 30	4755, 64	-1991, 34	19 995, 50	27 517, 44	-7521, 94
3347, 50	7553, 53	-4206, 03	20 445, 60	13 948, 95	6496, 65
3914, 20	5263, 55	-1349, 35	21 220, 80	29 518, 94	-8298, 14
4400, 80	7241, 83	-2841, 03	21 360, 00	20 644, 76	715, 24
5904, 00	8992, 88	-3088, 88	21 418, 80	19 152, 00	2266, 80
6956, 70	7161, 55	-204, 85	21 477, 10	22 791, 19	-1314, 09
7595, 10	10 469, 73	-2874, 63	21 816, 30	21 263, 08	553, 22
9257, 80	14 251, 91	994, 11	22 824, 90	14 496, 10	8328, 80
9317, 10	5569, 87	3747, 23	23 579, 30	17 021, 68	6557, 62
9978, 80	12 356, 21	-2377, 41	23 702, 60	14 531, 28	9171, 32
10 144, 80	10 929, 40	-784, 60	24 007, 20	22 773, 85	1233, 35
10 215, 40	9619, 74	595, 66	27 581, 20	31 028, 32	-3447, 12
11 349, 50	14 390, 38	-3040, 88	28 057, 50	32 314, 79	-4257, 29
12 046, 90	14 174, 13	-2127, 23	29 815, 50	31 859, 41	-2043, 91
12 061, 40	14 898, 60	-2837, 20	32 236, 50	31 936, 40	300, 10
12 104, 20	17 000, 04	-4895, 84	32 657, 40	32 494, 15	163, 25
13 042, 40	10 214, 84	2827, 56	32 672, 70	26 620, 17	6052, 53
13 104, 30	13 167, 07	-62, 77	34 351, 10	22 852, 20	11 498, 90
13 396, 40	17 660, 39	-4263, 99	36 050, 40	35 892, 53	157, 87
14 170, 30	22 136, 25	-7965, 95	36 544, 30	22 893, 37	13 650, 93
14 227, 00	15 269, 09	-1042, 09	37 136, 90	22 606, 54	14 530, 36

График зависимости случайных остатков от выровненного значения зависимой переменной имеет вид, представленный на рис. 5. Можно отметить определенное увеличение разброса точек в центральной части графика и уменьшение разброса для последних нескольких точек. Такая картина может свидетельствовать о наличии гетероскедастичности остатков.

Рисунок 5. Изменение дисперсии случайных остатков с ростом выровненного значения зависимой переменной

Применим для анализа дисперсии остатков рассмотренные выше тесты. Так как большинство тестов основано на гипотезе, что известна переменная, вызывающая гетероскедастичность остатков, обратимся сначала к тесту Уайта, в котором рассматриваются все независимые переменные, входящие в модель регрессии.

Используем короткую форму теста Уайта, без включения попарных произведений независимых переменных. Получим следующий результат:

Табличное значение F-критерия равно 2, 33 ( ). Таким образом, по тесту Уайта нет оснований отвергнуть нулевую гипотезу о гомоскедастичности остатков. Отметим также, что все параметры незначимы, но наибольшее значение -критерия (и достаточно близкое к табличному) имеют параметры при переменной (табличное значение -критерия составило 2, 02 ( )). Таким образом, переменная может быть рассмотрена в других тестах как возможная причина гетероскедастичности.

Тест Бреуша - Пагана позволяет рассматривать различные комбинации переменных в качестве объясняющих гетероскедастичность остатков. Уравнение теста, включающее в себя все три независимые переменные, будет иметь вид

Табличное значение критерия равно 7, 82 ( ), таким образом, нет оснований отвергнуть нулевую гипотезу о гомоскедастичности случайных остатков. Руководствуясь предположениями, сделанными в ходе анализа теста Уайта, проведем тест Бреуша - Пагана применительно только к переменной . Получим следующие результаты:

Табличное значение критерия в данном случае равно 3, 84 ( ), таким образом, мы отвергаем нулевую гипотезу о гомоскедастичности случайных остатков. Остатки гетероскедастичны по переменной . Анализ по тесту Бреуша - Пагана при необходимости можно продолжить, исследуя влияние на дисперсию случайных остатков других независимых переменных. Опираясь на выявленное влияние на дисперсию остатков переменной , проверим эту связь с помощью других тестов.

Использование критерия Гольдфельда - Квандта предполагает упорядочивание данных, в нашем случае по переменной .

Общий объем наблюдений составляет 48 регионов, т.е. их можно разделить на три равные группы по 16 наблюдений в каждой или по 18 наблюдений в первой и третьей группах и 12 наблюдений во второй. Так как критерий Гольдфельда — Квандта предполагает построение уравнений регрессии той же структуры, что и исходное уравнение, остановимся на втором варианте деления совокупности как обеспечивающим большую достоверность регрессионного анализа (18 наблюдений на три коэффициента регрессии, т.е. по шесть наблюдений на каждый коэффициент).

Для первой и третьей совокупностей наблюдений найдем параметры уравнений множественной регрессии вида и рассчитаем случайные остатки по каждому из них. Получим следующие результаты.

Первая группа (минимальные значения ):

;

Третья группа (максимальные значения ):

Разделим большую остаточную сумму квадратов (по третьей группе) на меньшую (по первой группе):

;

Разделим большую остаточную сумму квадратов (по третьей группе) на меньшую (по первой группе): . Табличное значение F-критерия равно 2, 48 при степенях свободы и уровне значимости 0, 05. Следовательно, дисперсия остатков зависит от величины значений переменной , гипотеза о гомоскедастичности остатков отвергается.

Расчеты по тестам Парка и Глейзера по переменной приводят к следующим результатам.

Тест Парка:

Тест Глейзера:

при

Табличное значение критерия Стьюдента равно 2, 0129 ( ). Таким образом, по тесту Глейзера при и 0, 5 гипотеза о гомоскедастичности остатков отвергается, по тесту Парка - нет оснований отвергнуть нулевую гипотезу. Оценка гетероскедастичности остатков по переменной с использованием коэффициента ранговой корреляции Спирмена привела к следующему результату:

То есть коэффициент ранговой корреляции незначим (табличное значение критерия Стьюдента, так же как в тестах Глейзера и Парка, равно 2, 0129), нет оснований отвергнуть нулевую гипотезу о гомоскедастичности остатков.

Подводя итоги выявления гетероскедастичности в нашем примере, отметим, что по ряду тестов (Бреуша - Пагана, Гольдфельда - Квандта, Глейзера) гипотеза о гомоскедастичности остатков была отвергнута, т.е. можно утверждать, что на дисперсию случайных остатков оказывает влияние переменная . То, что гетероскедастичность была выявлена не во всех тестах, связано с тем, что разные тесты опираются на разные предпосылки о форме связи величины случайных остатков и независимой переменной. Исследование по тесту Глейзера показывает, что эта форма может быть описана выражением , где - линейная функция.

Причинами гетероскедастичности случайных остатков могут быть неверная функциональная форма уравнения регрессии (неверная спецификация модели), неоднородность исследуемой совокупности. Соответственно способами устранения гетероскедастичности являются построение модели иной функциональной формы и (или) разбиение совокупности на однородные группы. Если по каким-то причинам это сделать невозможно или нежелательно, то для нахождения параметров уравнения регрессии можно воспользоваться обобщенным методом наименьших квадратов.

⇐ Предыдущая 1 2 3 4 5 67