МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

Общим случаем линейной регрессии является модель множественной линейной регрессии, имеющая вид:

, (3.1)

где – независимые (факторные) переменные; – зависимая (результативная) переменная; – параметры (коэффициенты) уравнения регрессии; – остаток уравнения регрессии; – количество факторов регрессии.

Часто модель множественной линейной регрессии записывается в матричной форме:

, (3.2)

где Y – вектор выборочных данных наблюдений зависимой переменной (n элементов), X – матрица выборочных данных наблюдений факторных переменных (n × (k+1)-элементов, k – количество факторов), B – вектор параметров уравнения (k+1)-элементов, E – вектор случайных отклонений (n-элементов).

Оценка параметров модели множественной линейной регрессии производится (как и для парной линейной регрессии) классическим методом наименьших квадратов (МНК) путём минимизации суммы квадратов остатков (формула 2.2). Решением полученной системы нормальных уравнений находится вектор B оценок параметров уравнения регрессии:

. (3.3)

При построении уравнения множественной линейной регрессии может возникнуть проблема мультиколлинеарности факторов, их тесной линейной связанности. Две переменные считаются явно коллинеарными (т.е. находящимися между собой в линейной зависимости) если их коэффициент парной линейной корреляции больше или равен 0, 7. При рассмотрении факторов для включения в модель один из двух коллинеарных факторов отбрасывается, предпочтение же отдаётся тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами.

По величине парных коэффициентов корреляции выясняется лишь явная коллинеарность факторов. В случае сильной межфакторной корреляции для ее преодоления используют ряд подходов, таких как: исключение из модели одного или нескольких факторов, преобразование факторов, переход к совмещенным уравнениям регрессии.

После мер по устранению мультиколлинеарности осуществляется отбор факторов, наиболее влияющих на изменение результативного признака, в уравнение регрессии включают только статистически значимые факторы.

Проверка статистической значимости уравнения множественной линейной регрессии и коэффициентов регрессии осуществляется аналогично случаю парной линейной регрессии с помощью критериев Фишера и Стьюдента (см. лабораторную работу № 2, формулы 2.5, 2.6, 2.10). Часто при тестировании используют не сами t- и F-статистики, а рассчитанные для них p-значения. p-значение – это расчётная вероятность допустить ошибку 1-го рода при тестировании, т.е. расчётная вероятность отклонить нулевую гипотезу, если на самом деле она верна. p-значение сравнивается с уровнем значимости статистического теста. Если p-значение оказывается меньше уровня значимости, то нулевая гипотеза отвергается, в противном случае нет оснований для отвержения нулевой гипотезы.

Коэффициент множественной детерминации для множественной регрессии аналогичен по расчёту (формула 2.4) и интерпретации случаю парной линейной регрессии. При добавлении числа факторов значение увеличивается, поэтому скорректированный коэффициент множественной детерминации содержит поправку на число степеней свободы:

. (3.4)

Коэффициент множественной корреляции характеризует тесноту связи рассматриваемого набора факторов с результативным признаком, коэффициент лежит в пределах от 0 до 1. Чем ближе значение коэффициента к 1, тем теснее связь. рассчитывается как квадратный корень из коэффициента множественной детерминации.

Для применения МНК требуется, чтобы дисперсия остатков для каждого наблюдения была гомоскедастичной, т.е. постоянной. Если это условие не соблюдается, то имеет место гетероскедастичность остатков, при которой .

Оценить остатки на гетероскедастичность можно с помощью теста Вайта, являющегося универсальным тестом на гетероскедастичность. Тест позволяет проверить значимость регрессии квадратов остатков относительно комплекса переменных модели и их квадратов.

Если и , то для нулевой гипотезы статистика имеет распределение с k степенями свободы ( – коэффициент детерминации вспомогательной дисперсии). При нулевой гипотезе о гомоскедастичности остатков модели вспомогательная регрессия должна быть незначимой. Если значение статистики больше критического значения этого распределения для заданного уровня значимости, то нулевая гипотеза отвергается, то есть имеется гетероскедастичность. В противном случае гетероскедастичность признается незначимой. Соответственно, если расчётное р-значение для статистики меньше заданного уровня значимости, то нулевую гипотезу следует отклонить, в противном случае нет оснований для отклонения нулевой гипотезы.

Расчёт среднего коэффициента эластичности для фактора множественной линейной регрессии производится по формуле:

, (3.5)

коэффициент показывает, на сколько процентов в среднем по совокупности изменится результат от своей величины при изменении фактора на 1% от своего значения при неизменных значениях других факторов.

Расчёт бета-коэффициента для фактора производится по формуле:

, (3.6)

где – среднее квадратичное отклонение , – среднее квадратичное отклонение . Бета-коэффициент показывает, на какую часть величины изменится с изменением на величину при фиксированном значении остальных независимых переменных.

Расчёт дельта-коэффициента для фактора производится по формуле:

, (3.7)

где – коэффициент парной линейной корреляции между и , – коэффициент множественной детерминации уравнения регрессии. Дельта-коэффициент показывает долю влияния фактора в суммарном влиянии всех факторов.

Задание

Исходные данные для лабораторной работы представлены табл. 3.1 значений зависимой и независимых переменных (по вариантам). Для пунктов 1–6 ниже расчёты произвести в Gretl, для пункта 7 – в Gretl и MS Excel. Принять уровень значимости .

Таблица 3.1

Исходные данные к лабораторной работе №3 по вариантам

№ варианта	Независимые переменные (из табл. 2 Приложения 1)	Зависимая переменная (из табл. 2 Приложения 1)
	X3, X9, X12, X6	Y3
	X2, X8, X12, X1	Y3
	X6, X10, X8, X7	Y3
	X3, X8, X9, X5	Y3
	X1, X3, X5, X6	Y1
	X2, X4, X12, X10	Y1
	X7, X9, X11, X3	Y1
	X7, X3, X12, X2	Y1
	X3, X4, X8, X10	Y4
	X1, X10, X11, X2	Y4
	X6, X9, X12, X5	Y4
	X8, X10, X12, X7	Y4
	X1, X3, X4, X7	Y2
	X8, X10, X12, X2	Y2
	X1, X4, X5, X3	Y2

1. Построить матрицу парных линейных коэффициентов корреляции для зависимой и всех независимых переменных. Установить, какие факторы коллинеарны.

2. Построить уравнение множественной линейной регрессии, обосновав выбор факторов.

3. Оценить статистическую значимость уравнения множественной регрессии и статистическую значимость коэффициентов уравнения регрессии с использованием p-значений t- и F-статистик.

4. Построить уравнение множественной регрессии со статистически значимыми факторами.

5. Определить значение коэффициента множественной корреляции и детерминации, скорректированное значение коэффициента множественной детерминации.

6. Провести тестирование ошибок уравнения множественной регрессии на гетероскедастичность с использованием теста Вайта.

7. Рассчитать и интерпретировать средние коэффициенты эластичности, бета- и дельта-коэффициенты.

Решение типового примера

Пусть даны следующие значения зависимой и независимых переменных (табл. 3.2).

Таблица 3.2

Исходные данные типового примера

№ варианта	Независимые переменные (из табл. 2 Приложения 1)	Зависимая переменная (из табл. 2 Приложения 1)
	X1, X4, X10, X11	Y3

1. Импортируем данные в Gretl и построим матрицу парных линейных коэффициентов корреляции для зависимой и всех независимых переменных с помощью функции Вид-Корреляционная матрица.

По результатам расчета 0, 1688, , , , , . Таким образом, переменные X10 и X11 явно коллинеарны.

2. Построим уравнение множественной линейной регрессии с помощью функции Модель-Метод наименьших квадратов. Фактор X11 исключаем из построения, т.к. он коллинеарен с X10 и его связь с другими факторами сильнее, нежели у X10 ( ). При этом теснота связи X10 с результативным признаком высокая ( ). Итак, искомое уравнение множественной линейной регрессии выглядит следующим образом:

3. Построенное уравнение множественной линейной регрессии статистически значимо, так как p-значение для расчётной статистики Фишера (количество степеней свободы и ) меньше уровня значимости : .

Коэффициент статистически незначим, т.к. для расчётного значения t-статистики (количество степеней свободы ) p-значение больше уровня значимости : . Аналогичные p-значения для коэффициентов меньше , следовательно коэффициенты статистически значимы.

4. Построим уравнение множественной линейной регрессии с помощью функции Модель-Метод наименьших квадратов, исключив фактор X4. Полученное уравнение множественной линейной регрессии выглядит следующим образом:

На основе анализа р-значений для расчётных t- и F-статистик построенное уравнение регрессии и все коэффициенты регрессии являются статистически значимыми.

5. Рассчитанное значение коэффициента множественной детерминации: ; скорректированное значение коэффициента множественной детерминации: . Таким образом, построенное уравнение регрессии объясняет 54% вариации (дисперсии) зависимой переменной .

Рассчитаем значение коэффициента множественной корреляции: , т. е. теснота связи результативного признака с набором включённых в модель факторов достаточно высокая.

6. Проведём тестирование ошибок уравнения множественной регрессии на гетероскедастичность с использованием теста Вайта в Gretl с помощью функции Тесты-Гетероскедастичность-Тест Вайта в окне построенной модели. Расчётная вероятность допустить ошибку (p-значение = 7, 48× 10^–12) меньше уровня значимости и свидетельствует о том, что нулевую гипотезу (гетероскедастичность отсутствует) нужно отклонить, т. е. дисперсия остатков модели неоднородна.

Вероятная причина неоднородности дисперсии – наличие во множестве данных выпадающих значений (т.е. объектов, обладающих особыми свойствами, которые резко отличаются от свойств большинства других объектов рассматриваемой совокупности). Действительно, валовой региональный продукт г. Москва, г. Санкт-Петербург, Тюменской обл. (зависимая переменная), а также численность обучающихся по программам среднего профессионального образования в г. Москва, г. Санкт-Петербург, Краснодарском крае, республике Башкортостан (независимая переменная X10) существенно превышают средние значения.

7. Рассчитаем средние коэффициенты эластичности, бета- и дельта-коэффициенты по формулам 3.5, 3.6, 3.7 (средние значения зависимой и независимых переменных, а также их средние квадратические отклонения получаем в Gretl с помощью функции Вид-Описательная статистика):

, ,

, .

Следовательно, при изменении фактора X1 (плотность железнодорожных путей общего пользования) на +1% от своего значения результат Y3 (валовой региональный продукт) изменится на +0, 65% от своей величины в среднем по совокупности при неизменных значениях других факторов. При изменении фактора X10 (численность обучающихся по программам среднего профессионального образования) на +1% от своего значения результат Y3 (валовой региональный продукт) изменится на +1, 70% от своей величины в среднем по совокупности при неизменных значениях других факторов.

Трактовка полученных значений бета-коэффициентов аналогична трактовке средних коэффициентов эластичности (разница заключается только в том, что используются величины средних квадратичных отклонений переменных, а не проценты).

По рассчитанным значениям дельта-коэффициентов видно, что в суммарном влиянии всех факторов доля влияния фактора X1 составляет 0, 16, а фактора X10 – 0, 84.

Библиографический список

1. Елисеева И. И. и др.Эконометрика. Учебник для бакалавров. – М.: Проспект, 2014. – 288 с.

2. Тимофеев В. и др.Эконометрика. – М.: Юрайт, 2014. – 336 с.

3. Кремер Н. Ш., Путко Б. А. Эконометрика. – М.: Юнити-Дана, 2010. - 328 с.

4. Гореева Н. М., Демидова Л. Н. и др. Эконометрика: Учебное пособие в схемах и таблицах. – М.: Эксмо, 2008 г. – 224 с.

5. Елисеева И. И. Практикум по эконометрике. – М.: Финансы и статистика, 2007. – 344 с.

6. Куфель Т. Эконометрика. Решение задач с применением пакета программ Gretl. – М.: Горячая линия-Телеком, 2007. – 200 с.

Интернет-ресурсы

1. Gnu Regression, Econometrics and Time-series Library – интернет-сайт эконометрического пакета Gretl. – Режим доступа: http: //gretl.sourceforge.net

2. Эконометрика. Библиотека. Единое окно доступа к образовательным ресурсам. – Режим доступа: http: //window.edu.ru/library? p_rubr=2.2.76.4.8

3. Ресурсы по статистике и эконометрике. − Режим доступа: http: //ecsocman.hse.ru/docs/16000077/

4. Экономическая библиотека онлайн. − Режим доступа: http: //www.elobook.com/ekonometriya/

5. Электронные библиотеки России. Полнотекстовые pdf-учебники. − Режим доступа: http: //www.gaudeamus.omskcity.com/PDF_library_economic_7.html

6. Российский статистический ежегодник. Федеральная служба государственной статистики. – Режим доступа - http: //www.gks.ru/wps/wcm/connect/rosstat_main/rosstat/ru/statistics/publications/catalog/doc_1135087342078

7. Транспорт и связь в России. Федеральная служба государственной статистики. – Режим доступа: http: //www.gks.ru/wps/wcm/connect/rosstat_main/rosstat/ru/statistics/publications/catalog/3e4fc4004e3423529616fe18bf0023dd

Отчетность ОАО «РЖД». - Режим доступа: http: //ir.rzd.ru/static/public/ru? STRUCTURE_ID=32

ПРИЛОЖЕНИЕ 1

Таблица 1

⇐ Предыдущая 1 234 Следующая ⇒