коэффициентов уравнения множественной регрессии

⇐ ПредыдущаяСтр 8 из 8

Числовыми характеристиками точности коэффициентов множественной регрессии (параметров модели) , являются их средние квадратические отклонения (стандартные ошибки) , величина которых прямо пропорциональна S.

Можно показать, что матрица ковариаций вектора параметров модели В (матричный аналог дисперсии) может быть представлена в виде:

. (3.21)

Напомним, что ковариация двух переменных характеризует как степень рассеяния относительно их математических ожиданий, так и взаимосвязь этих переменных. При выполнении предпосылок МНК математическое ожидание .

Рассматривая матрицу ковариаций V(B) с элементами σ _ij, можно заметить, что на ее главной диагонали находятся дисперсии оценок параметров модели, т. е. . Тогда для выборочных дисперсий эмпирических коэффициентов справедливо выражение:

(3.22)

где – выборочная дисперсия случайных отклонений (остатков); – диагональный элемент матрицы (Х^ТХ)^-¹.

Стандартная ошибка j-го коэффициента регрессии будет определяться по формуле:

(3.23)

Таким образом, с помощью обратной матрицы (Х^ТХ)^-¹ определяется не только сам вектор оценок параметров (3.17), но и стандартные ошибки его компонент.

В частности, для модели с двумя объясняющими переменными (факторами) стандартные ошибки вычисляются по следующим формулам:

(3.24)

где – выборочный коэффициент корреляции между объясняющими переменными Х₁ и Х₂.

Из формул (3.24) следует, что стандартные ошибки тем меньше, чем меньше степень взаимного влияния факторов-аргументов, определяемая значением .

Рассчитав стандартные ошибки коэффициентов множественной линейной регрессии, можно приступать к проверке статистической значимости этих коэффициентов (параметров модели). Как и в случае парной регрессии, эта задача решается по схеме статистической проверки гипотез. Используется статистика которая имеет в данной ситуации распределение Стьюдента с числом степеней свободы v = n - m - 1 (n – объем выборки, m – число объясняющих переменных в модели). При требуемом уровне значимости a наблюдаемое значение t-статистики сравнивается с критической точкой t_a_,_n _- _m _-₁ распределения Стьюдента.

Если установлено, что |t_набл| > t_кр, то коэффициент считается статистически значимым. В случае, когда |t_набл| £ t_кр коэффициент считается статистически незначимым (статистически близким к нулю). Это означает, что фактор-аргумент Х_j не обладает существенной линейной связью с исследуемой переменной Y. Другими словами, этот фактор не оказывает заметного влияния на результирующий экономический показатель и лишь искажает реальную картину взаимосвязи.

Формально, после установления факта статистической незначимости коэффициента , следует исключить из уравнения регрессии переменную Х_j, что упрощает модель и делает ее более конкретной. Однако в эконометрических исследованиях вопрос об исключении из уравнения модели незначимых переменных не должен решаться столь однозначно. Окончательное решение должно быть принято после тщательного качественного анализа.

Надежность полученных оценок также определяется доверительными интервалами для параметров модели. Если учесть, что относительная величина имеет распределение Стьюдента и выполнятся условие (t_a_,_n _- _m _-₁ определяется по таблице критических точек распределения Стьюдента), то доверительный интервал, накрывающий с надежностью (1 - a) неизвестное значение теоретического параметра b_j, определяется неравенством:

. (3.25)

Аналогично парной регрессии (см. раздел 2.5) может быть построена интервальная оценка для индивидуальных значений зависимой переменной у₀ при заданном векторе аргументов Х₀:

(3.26)

где – средняя квадратическая ошибка рассчитанных по модели (прогнозируемых) значений , записанная в матричной форме.

Проверка общего качества уравнения

Множественной регрессии

Для проверки общего качества уравнения регрессии обычно используется коэффициент детерминации R², который характеризует долю дисперсии зависимой переменной Y, объясняемую регрессионной моделью, и определяется по формуле:

(3.27)

Свойства коэффициента R² подробно рассмотрены в разделе 2.4.

Для множественной регрессии коэффициент детерминации (или множественный коэффициент детерминации) является неубывающей функцией числа объясняющих переменных, т. е. добавление новой объясняющей переменной (фактора-аргумента Х) в модель никогда не уменьшает значение R². Действительно, каждая новая объясняющая переменная может лишь дополнить информацию, объясняющую поведение зависимой переменной. В целом это уменьшает неопределенность в поведении исследуемой величины Y. Однако увеличение R² при добавлении новых переменных далеко не всегда приводит к улучшению качества регрессионной модели, так как эти переменные могут не оказывать существенного влияния на результативный признак. Поэтому, наряду с коэффициентом R², для анализа используется скорректированный коэффициент детерминации , определяемый соотношением:

(3.28)

или с учетом (3.27)

. (3.29)

Можно заметить, что знаменатель в (3.29) является несмещенной оценкой общей дисперсии зависимой переменной Y, а числитель – несмещенной оценкой остаточной дисперсии (дисперсии случайных отклонений).

Скорректированный коэффициент детерминации устраняет (корректирует) неоправданный эффект, связанный с ростом R² при увеличении числа объясняющих переменных. Из (3.28) следует, что при m > 1 Можно показать, что увеличивается при добавлении новой объясняющей переменной только тогда, когда t-статистика для этой переменной по модулю больше единицы, т. е. когда ее коэффициент регрессии (параметр модели) считается относительно значимым. Таким образом, в определенной степени использование скорректированного коэффициента детерминации более предпочтительно для сравнения регрессионных моделей при изменении количества объясняющих переменных (регрессоров). Добавление в модель новых регрессоров может осуществляться до тех пор, пока растет .

В компьютерных пакетах приводятся данные как по R², так и по , которые используются на практике для оценки суммарной меры общего качества построенной регрессионной модели.

В общем случае качество модели считается удовлетворительным, если R² > 0, 5. Однако не следует рассматривать коэффициент детерминации как абсолютный показатель качества модели. Можно привести ряд примеров, когда неправильно специфицированные модели имели сравнительно высокие коэффициенты детерминации. Поэтому коэффициент детерминации в современной эконометрике следует рассматривать лишь как один из показателей, который необходим для анализа строящейся модели.

Анализ общей (совокупной) статистической значимости уравнения множественной регрессии осуществляется на основе проверки основной гипотезы об одновременном равенстве нулю всех коэффициентов при объясняющих переменных:

Н₀: b₁ = b₂ = … = b_m = 0.

Если данная гипотеза не отклоняется, то естественно считать уравнение модели статистически незначимым, т. е. не выражающим существенную линейную связь между Y и Х₁, Х₂, …, Х_m.

Напомним (см. раздел 2.4.3), что общая дисперсия зависимой переменной D_n(y) может быть представлена в виде суммы двух составляющих:

где D_n(y) – соответственно, дисперсия? объясняемая уравнением множественной регрессии, и необъясняемая (остаточная) дисперсия, характеризующая влияние неучтенных факторов.

Исходя из этого проводится дисперсионный анализ для проверки гипотезы Н₀ (F-тест).

Строится проверочная F-статистика:

(3.30)

где – объясняемая дисперсия (в уравнении множественной регрессии вместе со свободным членом оценивается k = m + 1 параметров); – остаточная дисперсия. При выполнении предпосылок МНК построенная статистика имеет распределение Фишера с числами степеней свободы v₁ = m, v₂ = n - m - 1. Поэтому гипотеза Н₀ отклоняется, если при заданном уровне значимости a значение F_набл, рассчитанное по формуле (3.30), больше, чем критическое значение F_кр = F_a_; _m_; _n _- ₁ _- _m (F_набл > F_кр), и делается вывод о статистической значимости уравнения множественной регрессии. В противном случае (F_набл > F_кр) нет оснований для отклонения Н₀. Это означает, что объясняемая построенной моделью дисперсия соизмерима с дисперсией, вызванной неучтенными факторами, а следовательно, общее качество модели невысоко.

Если рассчитан коэффициент детерминации R², то критерий значимости уравнения регрессии (3.30) может быть представлен в следующем виде:

(3.31)

Критерий (3.31) обычно используется на практике для тестирования гипотезы о статистической значимости коэффициента детерминации (Н₀: R² = 0; Н₁: R² > 0) которая эквивалентна гипотезе об общей статистической значимости уравнения множественной регрессии.

Отметим, что в отличие от парной регрессии, где t-тест и F-тест равносильны, в случае множественной регрессии коэффициент R² приобретает самостоятельную значимость.

Пример 3.2. Оценим статистическую значимость построенной модели.

Пусть при оценке регрессии с тремя объясняющими переменными ( по 30 наблюдениям получено значение коэффициента детерминации R² = 0, 7. Тогда, наблюдаемое значение F-статистики . По таблице критических точек распределения Фишера найдем F_{0, 05; 3; 26} = 2, 98 при заданном уровне значимости a = 0, 05. Поскольку F_набл = 20, 2 > F_кр = 2, 98, то нулевая гипотеза отклоняется, т. е. отвергается предположение о незначимости линейной связи.

Мультиколлинеарность

Весьма нежелательным эффектом, который может проявляться при построении моделей множественной регрессии, является мультиколлинеарность – линейная взаимосвязь двух или нескольких объясняющих переменных. Различают функциональную и корреляционную формы мультиколлинеарности.

При функциональной форме мультиколлинеарности по крайней мере два регрессора связаны между собой линейной функциональной зависимостью. В этом случае определитель матрицы Х^ТХ равен нулю в силу присутствия линейно зависимых вектор-столбцов (нарушается предпосылка 5 МНК), что приводит к невозможности решения соответствующий системы уравнений и получения оценок параметров регрессионной модели.

Однако в эконометрических исследованиях мультиколлинеарность чаще всего проявляется в более сложной корреляционной форме, когда между хотя бы двумя объясняющими переменными существует тесная корреляционная связь. Ниже рассмотрены некоторые способы обнаружения, а также уменьшения и устранения мультиколлинеарности.

Один из таких способов заключается в исследовании матрицы Х^ТХ. Если ее определитель близок к нулю, то это может свидетельствовать о наличии мультиколлинеарности. В этом случае наблюдаются значительные стандартные ошибки коэффициентов регрессии и их статистическая незначимость по t-критерию, хотя в целом регрессионная модель может оказаться значимой по F-тесту.

Другой подход состоит в анализе матрицы парных коэффициентов корреляции между объясняющими переменными (факторами). Если бы факторы не коррелировали между собой, то корреляционная матрица R была бы единичной матрицей, поскольку все недиагональные элементы (х_i ¹ x_j) равны нулю. Определитель такой матрицы равен единице. Например, для модели, включающей три объясняющих переменных , в этом случае имеем:

. (3.32)

Если же, наоборот, между факторами-аргументами существует полная линейная зависимость и все коэффициенты корреляции равны 1 (|r_ij| = 1), то определитель матрицы межфакторной корреляции равен нулю

. (3.33)

Таким образом, чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность объясняющих переменных и ненадежнее оценки множественной регрессии, полученные с использованием МНК.

Если в модели больше двух объясняющих переменных, то для обнаружения мультиколлинеарности полезно находить частные коэффициенты корреляции, поскольку парные коэффициенты корреляции определяют силу линейной зависимости между двумя факторами без учета влияния на них других объясняющих переменных. Например, между двумя экономическими переменными может наблюдаться высокий положительный коэффициент корреляции совсем не потому, что одна из них стимулирует изменение другой, а вследствие того, что обе эти переменные изменяются в одном направлении под влиянием других факторов, присутствующих в модели. Поэтому возникает необходимость оценки действительной тесноты (силы) линейной связи между двумя факторами, очищенной от влияния других переменных. Параметр, определяющий степень корреляции между двумя факторами Х_i и X_j при исключении влияния остальных переменных называется частным коэффициентом корреляции.

Например, в случае модели с тремя объясняющими переменными Х₁, Х₂, Х₃ частный коэффициент корреляции между Х₁ и Х₂ рассчитывается по формуле:

(3.34)

Частный коэффициент корреляции может существенно отличаться от «обычного» парного коэффициента корреляции r₁₂. Пусть, например, r₁₂ = 0, 5; r₁₃ = 0, 5; r₂₃ = -0, 5. Тогда частный коэффициент корреляции r_12.3 = 1 (3.34), т. е. при относительно невысоком коэффициенте корреляции r₁₂ частный коэффициент корреляции указывает на высокую зависимость (коллинеарность) между переменными Х_i и X_j.

Таким образом, для обоснованного вывода о корреляции между объясняющими переменными множественной регрессии необходимо рассчитывать частные коэффициенты корреляции.

Частный коэффициент корреляции r_ij_._1, _2, _…, _m, как и парный коэффициент r_ij, может принимать значения от -1 до 1. Присутствие в модели пар переменных, имеющих высокие коэффициенты частной корреляции (обычно больше 0, 8), свидетельствует о наличии мультиколлинеарности.

Для устранения или уменьшения мультиколлинеарности используется ряд методов, простейшим из которых является исключение из модели одной или нескольких коррелированных переменных. Обычно решение об исключении какой-либо переменной принимается на основании экономических соображений. Следует заметить, что при удалении из анализа

объясняющей переменной можно допустить ошибку спецификации. Например, при изучении спроса на некоторый товар в качестве объясняющих переменных целесообразно использовать цену данного товара и цены товаров-заменителей, которые зачастую коррелируют друг с другом. Исключив из модели цены заменителей, мы, вероятнее всего, допустим ошибку спецификации. Вследствие этого можно получить смещенные оценки и сделать ненадежные выводы.

Иногда для уменьшения мультиколлинеарности достаточно (если это возможно) увеличить объем выборки. Например, при использовании ежегодных показателей можно перейти к поквартальным данным. Увеличение количества данных сокращает дисперсии коэффициентов регрессионной модели и тем самым увеличивает их статистическую значимость.

В ряде случаев минимизировать либо вообще устранить мультиколлинеарность можно с помощью преобразования переменных, в результате которого осуществляется переход к новым переменным, представляющим собой линейные или относительные комбинации исходных.

Например, построенная регрессионная модель имеет вид:

(3.35)

причем Х₁ и Х₂ – коррелированные переменные. В этом случае целесообразно оценивать регрессионные уравнения относительных величин:

(3.36)

Следует ожидать, что в моделях, построенных аналогично (3.36), эффект мультиколлинеарности не будет проявляться.

Существуют также другие, более теоретически разработанные способы обнаружения и подавления мультиколлинеарности, описание которых выходит за рамки данной книги.

Следует заметить, что если основная задача, решаемая с помощью эконометрической модели, – прогнозирование поведения реального экономического объекта, то при общем удовлетворительном качестве модели проявление мультиколлинеарности не является слишком серьезной проблемой, требующей приложения больших усилий по ее выявлению и устранению, т. к. в данном случае наличие мультиколлинеарности не будет существенно сказываться на прогнозных качествах модели. Таким образом, вопрос о том – следует ли серьезно заниматься проблемой мультиколлинеарности или «смириться» с ее проявлением – решается исходя из целей и задач эконометрического анализа.

Вопросы и упражнения для самопроверки

1. Как определяется модель множественной линейной регрессии?

2. Опишите алгоритм определения коэффициентов множественной линейной регрессии (параметров модели) по МНК в матричной форме.

3. Как определяется статистическая значимость коэффициентов регрессии?

4. В чем суть скорректированного коэффициента детерминации и его отличие от обычного R²?

5. Как используется F-статистика во множественном регрессионном анализе?

6. Вычислите величину стандартной ошибки регрессионной модели со свободным членом и без него, если n = 30; m = 3.

7. На основе n = 30 наблюдений оценена модель с тремя объясняющими переменными. Получены следующие результаты:

Стандартные ошибки (2, 5) (1, 6) (2, 8) (0, 07)

t-значения ( ) ( ) ( ) ( )

Проведите необходимые расчеты и занесите данные в скобки. Сделайте выводы о существенности коэффициентов регрессии на уровне значимости a =0, 05.

8. Имеются данные о ставках месячных доходов по трем акциям за шестимесячный период:

Акция	Доходы по месяцам, %
А	5, 4	5, 3	4, 9	4, 9	5, 4	6, 0
В	6, 3	6, 2	6, 1	5, 8	5, 7	5, 7
С	9, 2	9, 2	9, 1	9, 0	8, 7	8, 6

Есть основания предполагать, что доходы по акции С(Y) зависят от доходов по акциям А(X₁) и В(X₂). Необходимо:

а) составить уравнение регрессии Y по X₁ и X₂ с использованием МНК (указание: для удобства вычислений сумм первых степеней, квадратов и попарных произведений переменных составьте вспомогательную таблицу);

б) найти множественный коэффициент детерминации R² и оценить общее качество построенной модели;

в) проверить значимость полученного уравнения регрессионной модели на уровне a = 0, 05.

9. Объясните суть матрицы ковариаций случайных отклонений.

10. Дайте определение и объясните смысл мультиколлинеарности факторов-аргументов.

11. Каковы основные последствия мультиколлинеарности?

12. Какие вы знаете способы обнаружения мультиколлинеарности?

13. Как оценивается степень коррелированности между двумя объясняющими переменными?

14. Перечислите основные методы устранения мультиколлинеарности.

15. Как определяются парный и частный коэффициенты корреляции для независимых переменных.

16. Для модели с тремя независимыми переменными X₁, X₂, X₃ построенной по n = 50 наблюдениям, определена следующая корреляционная матрица:

Необходимо:

а) найти частные коэффициенты корреляции r_12.3, r_23.1, r_13.2;

б) определить, имеет ли место мультиколлинеарность для уравнения регрессии.

⇐ Предыдущая 1 2 3 4 5 6 78