Проверка значимости и подбор модели с использованием коэффициентов детерминации. Информационные критерии

⇐ ПредыдущаяСтр 8 из 13Следующая ⇒

Ранее мы неоднократно задавались вопросом о том, как следует интерпретировать значения коэффициента детерминации с точки зрения их близости к нулю или, напротив, их близости к единице.

Естественным было бы построение статистической процедуры проверки значимости линейной связи между переменными, основанной на значениях коэффициента детерминации – ведь является статистикой, поскольку значения этой случайной величины вычисляются по данным наблюдений. Теперь мы в состоянии построить такую статистическую процедуру.

Представим -статистику критерия проверки значимости регрессии в целом в виде

Отсюда находим:

Большим значениям статистики соответствуют и большие значения статистики , так что гипотеза , отвергаемая при = , должна отвергаться при выполнении неравенства , где

При этом вероятность ошибочного отклонения гипотезы по-прежнему равна .

Интересно вычислить критические значения при для различного количества наблюдений.

Ограничимся здесь простойлинейной регрессией , так что

В зависимости от количества наблюдений , получаем следующие критические значения :

n
R²_crit	0.910	0.720	0.383	0.200	0.130	0.097	0.065	0.032	0.008

Иначе говоря, при большом количестве наблюдений даже весьма малые отклонения наблюдаемого значения от нуля оказываются достаточными для того, чтобы признать значимость регрессии, т. е. статистическую значимость коэффициента при содержательной объясняющей переменной.

Поскольку же значение равно при квадрату выборочного коэффициента корреляции между объясняемой и (нетривиальной) объясняющей переменными, то аналогичный вывод справедлив и в отношении величины этого коэффициента корреляции, только получаемые результаты еще более впечатляющи:

n
\|r_xy\|_crit	0.953	0.848	0.618	0.447	0.360	0.311	0.254	0.179	0.089

Если сравнивать модели по величине коэффициента детерминации R², то с этой точки зрения полная модель всегда лучше (точнее, не хуже) редуцированной – значение R²в полной модели всегда не меньше, чем в редуцированной, просто потому, что в полной модели остаточная сумма квадратов не может быть больше, чем в редуцированной.

Действительно, в полной модели с объясняющими переменными минимизируется сумма

по всем возможным значениям коэффициентов . Если мы рассмотрим редуцированную модель, например, без -ой объясняющей переменной, то в этом случае минимизируется сумма

по всем возможным значениям коэффициентов , что равносильно минимизации первой суммы по всем возможным значениям при фиксированном значении . Но получаемый при этом минимум не может быть больше чем минимум, получаемый при минимизации первой суммы по всем возможным значениям , включая и все возможные значения . Последнее означает, что в полной модели не может быть меньше, чем в редуцированной модели. Поскольку же полная сумма квадратов в обеих моделях одна и та же, отсюда и вытекает заявленное выше свойство коэффициента .

Чтобы сделать процедуру выбора модели с использованием более приемлемой, было предложено использовать вместо его скорректированный (adjusted) вариант

в который по-существу вводится штрафза увеличение количества объясняющих переменных. При этом,

так что

при и .

При использовании коэффициента для выбора между конкурирующими моделями, лучшей признается та, для которой этот коэффициент принимает максимальноезначение.

Замечание. Если при сравнении полной и редуцированных моделей оценивание каждой из альтернативных моделей производится с использованием одного и того же количества наблюдений, то тогда, как следует из формулы, определяющей , сравнение моделей по величине равносильно сравнению этих моделей по величине или по величине . Только в последних двух случаях выбирается модель с миниимальным значением (или ).

Пример. Продолжая последний пример, находим значения коэффициента при подборе моделей , , :

для –

Таким образом, выбирая модель по максимуму , мы выберем из этих трех моделей именно модель , к которой мы уже пришли до этого, пользуясь - и -критериями.

В этом конкретном случае сравнение всех трех моделей по величине не равносильно сравнению их по величине (или ), если модели , оцениваются по всем наблюдениям, представленным в таблице данных, тогда как модель оценивается только по наблюдениям (одно наблюдение теряется из-за отсутствия в таблице запаздывающего значения , соответствующего году).

Наряду со скорректированным коэффициентом детерминации, для выбора между несколькими альтернативными моделями часто используют так называемые информационные критерии: критерий Акаике и критерий Шварца, также «штрафующие» за увеличение количества объясняющих переменных в модели, но несколько отличными способами.

Критерий Акаике (Akaike’s information criterion – AIC). При использовании этого критерия, линейной модели с объясняющими переменными, оцененной по наблюдениям, сопоставляется значение

где - остаточная сумма квадратов, полученная при оценивании коэффициентов модели методом наименьших квадратов. При увеличении количества объясняющих переменных первое слагаемое в правой части уменьшается, а второе увеличивается. Среди нескольких альтернативных моделей (полной и редуцированных) предпочтение отдается модели с наименьшим значением , в которой достигается определенный компромисс между величиной остаточной суммы квадратов и количеством объясняющих переменных.

Критерий Шварца (Schwarz’s information criterion – SC, SIC). При использовании этого критерия, линейной модели с объясняющими переменными, оцененной по наблюдениям, сопоставляется значение

И здесь при увеличении количества объясняющих переменных первое слагаемое в правой части уменьшается, а второе увеличивается. Среди нескольких альтернативных моделей (полной и редуцированных) предпочтение отдается модели с наименьшим значением .

Пример. В последнем примере получаем для полной модели и редуцированных моделей и следующие значения и .

	AIC	SC
M₃	8.8147	8.9594
M₂	8.6343	8.7428
M₁	8.4738	8.5462

Предпочтительной по обоим критериям оказывается опять модель .

Замечание. В рассмотренном примере все три критерия , и выбирают одну и ту же модель. В общем случае подобное совпадение результатов выбора вовсе не обязательно.

Включение в модель большого количества объясняющих переменных часто приводит к ситуации, которую называют мультиколлинеарностью.

Мы обещали ранее коснуться проблемы мультиколлинеарности и сейчас выполним это обещание. Прежде всего, напомним наше предположение

(4) матрица X^TX невырождена, т. е. ее определитель отличен от нуля:

которое можно заменить условием

(4^’) столбцы матрицы X линейно независимы.

Полная мультиколлинеарность соответствует случаю, когда предположение (4) нарушается, т. е. когда столбцы матрицы линейно зависимы, например,

( -й столбец является линейной комбинацией остальных столбцов матрицы ). При наличии чистой мультиколлинеарности система нормальных уравнений не имеет единственного решения, так что оценка наименьших квадратов для вектора параметров (коэффициентов) попросту не определена однозначным образом.

На практике, указывая на наличие мультиколлинеарности, имеют в виду осложнения со статистическими выводами в ситуациях, когда формально условие (4) выполняется, но при этом определитель матрицы X^TX близок к нулю. Указанием на то, что -я объясняющая переменная «почти является» линейной комбинацией остальных объясняющих переменных, служит большое значение коэффициента возрастания дисперсии

оценки коэффициента при этой переменной вследствие наличия такой «почти линейной» зависимости между этой и остальными объясняющими переменными. Здесь - коэффициент детерминации при оценивании методом наименьших квадратов модели

Если , то , и это соответствует некоррелированности -ой переменной с остальными переменными. Если же , то тогда , и чем больше корреляция -ой переменной с остальными переменными, тем в большей мере возрастает дисперсия оценки коэффициента при -ой переменной по сравнению с минимально возможной величиной этой оценки.

Мы можем аналогично определить коэффициент возрастания дисперсии оценки коэффициента при -ой объясняющей переменной для каждого :

Здесь — коэффициент детерминации при оценивании методом наименьших квадратов модели линейной регрессии -ой объясняющей переменной на остальные объясняющие переменные. Слишком большие значения коэффициентов возрастания дисперсии указывают на то, что статистические выводы для соответствующих объясняющих переменных могут быть весьма неопределенными: доверительные интервалы для коэффициентов могут быть слишком широкими и включать в себя как положительные, так и отрицательные значения, что ведет, в конечном счете, к признанию коэффициентов при этих переменных статистически незначимыми при использовании - критериев.

Пример. Обращаясь опять к данным об импорте товаров и услуг во Францию, находим:

Коэффициенты возрастания дисперсии для переменных и совпадают вследствие совпадения коэффициентов детерминации регрессии переменной на переменные и и регрессии переменной на переменные и (взаимно обратные регрессии).

Полученные значения коэффициентов возрастания дисперсий отражают очень сильную коррелированность переменных и . (Выборочный коэффициент корреляции между этими переменными равен .)

При наличии мультиколлинеарности может оказаться невозможным правильное разделение влияния отдельных объясняющих переменных. Удаление одной из переменных может привести к хорошо оцениваемой модели. Однако оставшиеся переменные примут на себя дополнительную нагрузку, так что коэффициент при каждой из этих переменных измеряет уже не собственно влияние этой переменной на объясняемую переменную, а учитывает также и часть влияния исключенных переменных, коррелированных с данной переменной.

Пример. Продолжая последний пример, рассмотрим редуцированные модели, получаемые исключением из числа объясняющих переменных переменной или переменной . Оценивание этих моделей приводит к следующим результатам:

c и для коэффициента при ;

c и для коэффициента при .

В каждой из этих двух моделей коэффициенты при и имеют очень высокую статистическую значимость. В первой модели изменчивость переменной объясняет изменчивости переменной ; во второй модели изменчивость переменной объясняет изменчивости переменной . С этой точки зрения, переменные и вполне заменяют друг друга, так что дополнение каждой из редуцированных моделей недостающей объясняющей переменной практически ничего не добавляя к объяснению изменчивости (в полной модели объясняется изменчивости переменной ), в то же время приводит к неопределенности в оценивании коэффициентов при и .

Но коэффициент при в полной модели соответствует связи между переменными и , очищенными от влияния переменной , тогда как коэффициент при в полной модели соответствует связи между переменными и , очищенными от влияния переменной . Поэтому неопределенность в оценивании коэффициентов при и в полной модели по-существу означает невозможность разделения эффектов влияния переменных и на переменную .

Приведем значения , и для всех трех моделей.


Полная	0.9702	1.1324	3.274	3.411
Без	0.9704	1.1286	3.211	3.303
Без	0.9719	1.0991	3.158	3.250

Все четыре критерия выбирают в качестве наилучшей модель с исключенной переменной .

Мы не будем далее углубляться в проблему мультиколлинеарности, обсуждать другие ее последствия и возможные способы преодоления затруднений, связанных с мультиколлинеарностью. Заинтересованный читатель может обратиться по этому вопросу к более полным руководствам по эконометрике.

⇐ Предыдущая 3 4 5 6 789 10 11 12 Следующая ⇒