Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Мультиколлинеарность и методы борьбы с нею. Ридж – регрессии и метод главных компонент



При построении эконометрической модели предполагается, что независимые переменные воздействуют на зависимую изолированно, т. е. влияние отдельной переменной на резуль­тативный признак не связано с влиянием других переменных. В реальной экономической действительности все явления в той или иной мере связаны, поэтому добиться выполнения этого предположения практически невозможно. Наличие свя­зи между независимыми переменными приводит к необходи­мости оценки ее влияния на результаты корреляционно-рег­рессионного анализа.

Различают функциональные и стохастические связи между объясняющими переменными. В первом случае говорят об ошиб­ках спецификации модели, которые должны быть исправлены.

Функциональная связь возникает, если в уравнение регрессии в качестве объясняющих переменных включают, в частности, все переменные, входящие в тождество. Например, можно ска­зать, что доход складывается из потребления и инвестиций , т. е. имеет место тождество. Мы предполагаем, что уровень процентных ставок зависит от дохода, т.е. модель в общем виде может быть представлена в виде

;

.

Неопытный исследователь, желая улучшить модель, мо­жет включить в уравнение также переменные «потребление» и «инвестиции», что приведет к функциональной связи меж­ду объясняющими переменными:

;

Функциональная взаимосвязь столбцов матрицы X приве­дет к невозможности найти единственное решение уравнения регрессии, так как , a нахождение обратной матрицы предполагает деление алгебраических до­полнений матрицы на ее определитель, который в дан­ном случае будет равен нулю.

Более часто между объясняющими переменными наблю­дается стохастическая связь, что приводит к уменьшению величины определителя матрицы : чем сильнее связь, тем меньше будет определитель. Это приводит к росту не толь­ко оценок параметров, полученных с использованием МНК, но и их стандартных ошибок, которые вычисляются по фор­муле (2.24):

и которой, как мы видим, также используется матрица .

Корреляционная связь может существовать как между дву­мя объясняющими переменными (интеркорреляция), так и между несколькими (мулыпиколлинеарностъ).

Существует несколько признаков, указывающих на нали­чие мультиколлинеарности. В частности, такими признака­ми являются:

- не соответствующие экономической теории знаки коэф­фициентов регрессии. Например, нам известно, что объ­ясняющая переменная оказывает прямое воздействие на объясняемую переменную , в то же время коэффици­ент регрессии при этой переменной меньше нуля;

- значительные изменения параметров модели при не­большом сокращении (увеличении) объема исследуе­мой совокупности;

- незначимость параметров регрессии, обусловленная вы­сокими значениями стандартных ошибок параметров.

Существование корреляционной связи между независимы­ми переменными может быть выявлено с помощью показате­лей корреляции между ними, в частности с помощью парных коэффициентов корреляции , которые можно записать в виде матрицы

. (55)

Коэффициент корреляции переменной с самой собой равен единице , а коэффициент корреляции переменной с переменной , равен коэффициенту корреляции переменной с переменной . Следовательно, данная матри­ца является симметрической, поэтому в ней указывают толь­ко главную диагональ и элементы под ней:

.

Высокие значения парных линейных коэффициентов корре­ляции указывают на наличие интеркорреляции, т.е. линейной связи между двумя объясняющими переменными. Чем выше ве­личина , тем выше интеркорреляция. Так как при по­строении моделей избежать отсутствия связей между объясня­ющими переменными практически невозможно, существует следующая рекомендация относительно включения двух пере­менных в модель в качестве объясняющих. Обе переменные можно включить в модель, если выполняются соотношения

, (56)

т.е. теснота связи результирующей и объясняющей перемен­ных больше, чем теснота связи между объясняющими пере­менными.

Наличие мультиколлинеарности можно подтвердить, найдя определитель матрицы (55). Если связь между независимы­ми переменными полностью отсутствует, то недиагональные элементы будут равны нулю, а определитель матрицы — еди­нице. Если связь между независимыми переменными близка к функциональной (т.е. является очень тесной), то определи­тель матрицы будет близок к нулю.

Еще один метод измерения мультиколлинеарности являет­ся следствием анализа формулы стандартной ошибки коэф­фициента регрессии (28):

Как следует из данной формулы, стандартная ошибка будет тем больше, чем меньше будет величина, которую называют фактор инфляции дисперсии (или фактор вздутия ди­сперсии) VIF:

,

где - коэффициент детерминации, найденный для уравнения зависимости переменной от других переменных , вхо­дящих в рассматриваемую модель множественной регрессии.

Так как величина отражает тесноту связи между переменной и прочими объясняющими перемен­ными, то она, по сути, характеризует мультиколлинеарность применительно к данной переменной . При отсутствии свя­зи показатель будет равен (или близок) единице, усиле­ние связи ведет к стремлению этого показателя к бесконеч­ности. Считают, что если для каждой переменной то имеет место мультиколлинеарность.

Измерителем мультиколлинеарности является также так называемый показатель (число) обусловленности матри­цы . Он равен отношению максимального и мини­мального собственных чисел этой матрицы:

. (57)

Считается, что если порядок этого соотношения превыша­ет , то имеет место сильная мультиколлинеарность.

Проверим наличие мультиколлинеарности в рассматрива­емом нами примере 2. Матрица парных коэффициентов кор­реляции имеет вид

.

Можно отметить, что связи между объясняющими пере­менными достаточно тесные, особенно между переменными и ; и , что указывает на интеркорреляцию этих пере­менных. Более слабая связь наблюдается между переменны­ми и . Найдем определитель матрицы .

Полученное значение ближе к нулю, чем к единице, что ука­зывает на наличие мультиколлинеарности объясняющих пе­ременных.

Проверим обоснованность включения всех трех незави­симых переменных в модель регрессии, используя правило (56). Парные линейные коэффициенты корреляции зависи­мой и независимых переменных равны

Они больше, чем показатели тесноты связи между независи­мыми переменными, следовательно, правило (56) выполняет­ся, все три переменные можно включить в модель регрессии.

Измерим степень мультиколлинеарности переменных с по­мощью фактора инфляции дисперсии (VIF). Для этого необходи­мо рассчитать коэффициенты детерминации для регрессий:

;

;

.

Для этого к каждой регрессии необходимо применить МНК, оценить ее параметры и рассчитать коэффициент детермина­ции. Для нашего примера результаты расчетов следующие:

;

;

.

Следовательно, фактор инфляции дисперсии для каждой независимой переменной будет равен

;

;

.

Все рассчитанные величины не превысили критического значения, равного трем, следовательно, при построении мо­дели можно пренебречь существованием связей между неза­висимыми переменными.

Для нахождения собственных чисел матрицы (с це­лью расчета показателя обусловленности (57)) необходи­мо найти решение характеристического уравнения

.

Матрица для нашего примера имеет вид

,

а матрица, модуль определителя которой нужно приравнять нулю, получится следующей:

.

Характеристический многочлен в данном случае будет иметь четвертую степень, что затрудняет решение задачи вручную. В данном случае рекомендуется воспользоваться возможно­стями вычислительной техники. Например, в ППП EViews по­лучены следующие собственные числа матрицы :

Следовательно, показатель обусловленности будет равен

,

что свидетельствует о наличии в модели сильной мультиколлинеарности.

Методами устранения мультиколлинеарности являются следующие.

1. Анализ связей между переменными, включаемыми в мо­дель регрессии в качестве объясняющих (независимых), с целью отбора только тех переменных, которые слабо связаны друг с другом.

2. Функциональные преобразования тесно связанных между собой переменных. Например, мы предполагаем, что по­ступление налогов в городах зависит от количества жи­телей и площади города. Очевидно, что эти переменные будут тесно связаны. Их можно заменить одной относи­тельной переменной «плотность населения».

3. Если по каким-то причинам перечень независимых пе­ременных не подлежит изменению, то можно воспользо­ваться специальными методами корректировки моделей

с целью исключения мультиколинеарности: ридж-регрессией (гребневой регрессией), методом главных компонент.

Применение ридж-регрессии предполагает корректировку элементов главной диагонали матрицы на некую про­извольно задаваемую положительную величину . Значение рекомендуется брать от 0, 1 до 0, 4. Н. Дрейпер, Г. Смит в своей работе приводят один из способов «автоматического» выбора величины , предложенный Хоэрлом, Кеннардом и Белдвином:

, (58)

где - количество параметров (без учета свободного члена) в ис­ходной модели регрессии; - остаточная сумма квадратов, по­лученная по исходной модели регрессии без корректировки на мультиколлинеарность; - вектор-столбец коэффициентов регрессии, преобразованных по формуле

(59)

где - параметр при переменной в исходной модели регрессии.

После выбора величины формула для оценки параметров регрессии будет иметь вид

(60)

где - единичная матрица; - матрица значений независимых пе­ременных: исходных или преобразованных по формуле (61); - вектор значений зависимой переменной: исходных или преобразо­ванных по формуле (62).

При построении ридж-регрессии рекомендуется преобразовывать независимые переменные

(61)

и результативную переменную

. (62)

В этом случае после оценки параметров по формуле (60) необходимо перейти к регрессии по исходным переменным, используя соотношения

. (63)

Оценки параметров регрессии, полученные с помощью фор­мулы (60), будут смещенными. Однако, так как определитель матрицы больше определителя матрицы , ди­сперсия оценок параметров регрессии уменьшится, что поло­жительно повлияет на прогнозные свойства модели.

Рассмотрим применение ридж-регрессии для примера 2. Найдем величину х с помощью формулы (58). Для этого сна­чала рассчитаем вектор преобразованных коэффициентов рег­рессии по формуле (59):

Произведение равно . Следовательно, реко­мендуемое составит

.

После применения формулы (60) и преобразований по фор­муле (63) получим уравнение регрессии

.

Применение метода главных компонент предполагает переход от взаимозависимых переменных к независимым друг от друга переменным , которые называют главными компонентами. Каждая главная компонента , может быть пред­ставлена как линейная комбинация центрированных (или стан­дартизованных) объясняющих переменных . Напомним, что центрирование переменной предполагает вычитание из каждого -гo значения данной -й переменной ее средне­го значения:

, (64)

а стандартизация (масштабирование) - деление выражения (64) на среднее квадратическое отклонение, рассчитанное для исходных значений переменной :

. (65)

Так как независимые переменные часто имеют разный мас­штаб измерения, формула (65) считается более предпочти­тельной.

Количество компонент может быть меньше или равно ко­личеству исходных независимых переменных . Компоненту с номером можно записать следующим образом:

. (66)

Можно показать, что оценки в формуле (66) соответству­ют элементам -гособственного вектора матрицы - , где

- матрица размером ( ), содержащая стандартизован­ные переменные. Нумерация главных компонент не является произвольной. Первая главная компонента имеет максималь­ную дисперсию, ей соответствует максимальное собственное число матрицы ; последняя - минимальную диспер­сию и наименьшее собственное число.

Доля дисперсии -йкомпоненты в общей дисперсии неза­висимых переменных рассчитывается по формуле

, (67)

где - собственное число, соответствующее данной компоненте; в знаменателе формулы (67) приведена сумма всех собственных чисел матрицы .

После расчета значений компонент строят регрессию, ис­пользуя МНК. Зависимую переменную в регрессии по главным компонентам (68) целесообразно центрировать (стандарти­зовать) по формулам (64) или (65).

(68)

где - стандартизованная (центрированная) зависимая перемен­ная; -коэффициенты регрессии по главным компонен­там; - главные компоненты, упорядоченные по убыва­нию собственных чисел ; - случайный остаток.

После оценки параметров регрессии (68) можно перей­ти к уравнению регрессии в исходных переменных, используя выражения (64) - (66).

Рассмотрим применение метода главных компонент на дан­ных примера 2. Отметим, что матрица для стандартизованных переменных является в то же время матрицей парных линейных коэффициентов корреляции между неза­висимыми переменными. Она уже была рассчитана и равна

Найдем собственные числа и собственные векторы этой ма­трицы, используя ППП Eviews. Получим следующие результаты.

Собственные числа матрицы :

Доля дисперсии независимых переменных, отражаемой компонентами, составила

Объединим собственные векторы матрицы , записав их как столбцы приведенной ниже матрицы F. Они упоря­дочены по убыванию собственных чисел, т.е. первый столбец является собственным вектором максимального собственно­го числа ( ) и т.д.:

.

Следовательно, три компоненты (соответствующие трем собственным векторам) можно записать в виде

После стандартизации исходных переменных по форму­ле (2.68) и расчета значений компонент (по значе­ний каждой компоненты) с помощью МНК найдем параме­тры уравнения (2.71):

В полученном уравнении регрессии значим только пара­метр при первой компоненте. Это закономерный результат с учетом того, что данная компонента описывает 70, 8% вари­ации независимых переменных. Так как компоненты незави­симы, при исключении из модели одних компонент параме­тры уравнения при других компонентах не меняются. Таким образом, имеем уравнение регрессии с одной компонентой:

.

Преобразуем полученное выражение в регрессию с исход­ными переменными

Откуда

Таким образом, используя метод главных компонент, мы получили уравнение регрессии

Устранение мультиколлинеарности с помощью ридж-регрес-сии и метода главных компонент привело к определенному из­менению параметров исходной регрессии, которая имела вид

Отметим, что эти изменения были относительно невелики, что указывает на невысокую степень мультиколлинеарности.


Поделиться:



Популярное:

Последнее изменение этой страницы: 2016-03-25; Просмотров: 2521; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.064 с.)
Главная | Случайная страница | Обратная связь