Парная регрессия. Свойства остатков

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ

УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«ТУЛЬСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»

Институт Права и управления

Кафедра Мировой экономики

Утверждаю: Зав. кафедрой Мировой экономики _______________В.И. Белоцерковский «___»____________ 2014 г.

Регистрационный номер: ________________________

КОНСПЕКТ ЛЕКЦИЙ

по учебной дисциплине (модулю)

«Эконометрика (продвинутый уровень)»

Уровень профессионального образования: магистратура

Направление подготовки: 38.04.01 Экономика

Профиль подготовки: Анализ внешнеэкономической деятельности предприятий

Квалификация (степень) выпускника: магистр

Форма обучения: очная

Тула 2014

Конспект лекций по учебной дисциплине (модулю) «Эконометрика (продвинутый уровень)» разработан доц., канд. физ.-мат. наук Ю.М. Филатовой и обсужден на заседании кафедры Мировой экономики института Права и управления (протокол заседания кафедры №8 от «_19_» _сентября_ 2014 г.)

Содержание

1. Парная регрессия. Свойства остатков. 4

2. Множественная линейная регрессия в скалярной и векторной формах 16

3. Метод наименьших квадратов и предпосылки его применения для множественной линейной регрессии. 17

4. Теорема Гаусса-Маркова. 28

5. Коэффициенты множественной корреляции и детерминации. 32

6. Проверка значимости модели множественной регрессии и ее параметров 34

7. Множественная линейная регрессия с ограничениями на параметры 41

8. Нелинейные модели множественной регрессии. 46

9. Выбор наилучшей функции регрессии. 49

10. Метод максимального правдоподобия. 56

11. Точечный и интервальный прогнозы.. 62

12. Мультиколлинеарность и методы борьбы с нею. Ридж – регрессии и метод главных компонент. 64

13. Гетероскедастичность и методы ее выявления. Оценивание регрессии в условиях гетероскедастичности ошибок. 75

14. Обобщенный метод наименьших квадратов. 82

15. Системы эконометрических уравнений. 83

Список литературы.. 87

Свойства остатков

Первое свойство остатков следует из уравнения , которое показывает, что

т.е. остатки и объясняющая переменная не коррелированы.

Второе свойство остатков, которым обладают оценки, полученные МНК, представляется в виде

или

т.е. остатки и предсказанные значения не коррелированы.

Третье свойство остатков имеет вид

математическое ожидание остатков равно нулю. В выборке .

Четвертое свойство остатков: остатки имеют постоянную дисперсию, т.е. для всех . Дисперсия остатков равна

(в выборке ).

Пятое свойство остатков: остатки не коррелированны между собой

для .

Зная остаток для -гo наблюдения, мы ничего не можем сказать об остатке для -го наблюдения . Заметим, что это свойство остатков исчезает при построении регрессии по временным рядам, в которых наблюдение каждого последующего года (месяца, квартала) зависит от наблюдения предыдущего года (месяца, квартала).

Четвертое и пятое свойства остатков можно проиллюстрировать графически (рис. 1).

Рисунок 1. Распределение остатков при фиксированных значениях независимой переменной

Постоянство дисперсии остатков называют гомоскедастичностьюостатков. Если же дисперсия остатков не постоянна, то имеет место гетероскедастичностьостатков.

Дисперсия остатков регрессии неизвестна и должна быть оценена. При этом нужно принять во внимание, что дисперсии оцененных параметров и зависят от дисперсии остатков . МНК - оценка дисперсии остатков имеет вид

или

Если распределение остатков не нормально, то наилучшим методом их оценки будет не МНК, а метод максимального правдоподобия.

Измерение ошибки аппроксимации определяется величиной коэффициента детерминации :

Эта величина принимает значения от нуля до единицы. Коэффициент может быть представлен также в виде следующей формулы:

где — остаток (величина отклонения от линии регрессии, которая минимизируется МНК).

Если велика, то регрессия не объясняет вариацию .

В этом случае коэффициент детерминации будет невелик (близок к нулю). Если многие точки фактических наблюдений лежат на линии регрессии или располагаются вблизи от нее, мала и, соответственно, коэффициент детерминации будет близок к единице. Если все наблюдения располагаются на линии регрессии, то , а значит, и , тогда . Если же точки, соответствующие наблюдениям, не лежат на линии регрессии, то , а значит, регрессия не объясняет вариацию . В случае если .

Тогда наилучшей аппроксимацией данных будет линия для всех , т.е. это горизонтальная линия, параллельная оси абсцисс и проходящая через точку , что соответствует случаю полной независимости переменных и .

Степень аппроксимации данных выборки, полученной регрессией , оценивается с помощью средней ошибки аппроксимации

Большей информативностью обладает средняя относительная ошибка аппроксимации

Значения средней относительной ошибки аппроксимации, не превышающие 10%, свидетельствуют о хорошем соответствии линии регрессии исходным данным.

Коэффициент детерминации имеет две трактовки:

1) это квадрат коэффициента парной корреляции между фактическими и расчетными значениями зависимой переменной, т.е. ;

2) это квадрат коэффициента парной корреляции между и , т.е. :

Коэффициент парной корреляции — это мера тесноты линейной связи:

Можно представить коэффициент парной корреляции через коэффициент регрессии , определяющий наклон регрессии к оси абсцисс:

По данным рассматриваемого примера 1, коэффициент парной корреляции равен , а коэффициент детерминации , т.е. на 54% вариация объема собираемых налогов зависит от количества занятых, а на 46% - от других факторов.

Подчеркнем, что коэффициент парной корреляции представляет собой меру линейной связи между и . Если, например, существует полная квадратическая связь между и , которая описывается уравнением регрессии , то , а значит и , может иметь значения, далекие от единицы. В этом случае нужно провести преобразование переменных с тем, чтобы линеаризировать уравнение регрессии. Примем , тогда параболическое уравнение регрессии будет иметь вид , т.е. это уравнение адекватно линейному уравнению множественной регрессии.

Сформулированные свойства остатков проверяются после нахождения параметров уравнения регрессии. По уравнению регрессии находятся расчетные (предсказанные) значения зависимой переменной ( ). После этого производится расчет остатков . Затем строится график остатков (residual plot). В случае гомоскедастичности остатков положительные и отрицательные значения остатков чередуются и находятся в области, параллельной оси абсцисс (рис. 2).

Рисунок 2. График остатков (случай гомоскедастичности)

График остатков по данным нашего примера о зависимости выпуска продукции от стоимости основных фондов представлен на рис. 3. Расположение «облака» остатков позволяет предположить наличие гетероскедастичности.

Рисунок 3. График остатков по данным примера

Кроме визуального анализа остатков существует ряд специальных тестов, позволяющих выявить гетероскедастичность остатков: тесты Гольдфельда - Квандта, Парка, Глейзера, Уайта, ранговой корреляции Спирмена и др. Названные тесты будут рассмотрены ниже.

Наличие гетероскедастичности сказывается на точности предсказания значения зависимой переменной на основе регрессии. Ошибка предсказания может быть представлена формулой

где - фактическое значение; - предсказанное значение для объекта 0; - отклонение фактического значения от «истинного» в генеральной совокупности; - отклонение «истинного» значения от предсказанного по регрессии.

Тогда дисперсия ошибки предсказания имеет вид

.Таким образом, можно утверждать, что ошибка предсказания значения на основе уравнения регрессии зависит от остаточной дисперсии (дисперсии остатков), от объема выборки , от того, насколько значение (для объекта предсказания) отличается от среднего значения по наблюдаемым данным. Чем меньше остаточная дисперсия, чем больше объем выборки и чем меньше вариация , т.е. , а также чем ближе к , тем меньше ошибка предсказания.

Как уже отмечалось, на основе уравнения регрессии могут быть получены точечные прогнозные значения, , и интервальные оценки. Например, 95%-ный доверительный интерв ал значения при имеет вид

где — выборочная оценка остаточной дисперсии (заменяет );

— критические 2, 5%-ное значение, полученное по таблице распределения с степенями свободы.

Как показано на рис. 4, границы доверительного интервала представляют собой гиперболу. Самое «узкое» значение интервала — в точке и ее окрестностях; чем больше удалено значение от , тем шире становится доверительный интервал. Устранение из выборки регионов, для которых значение остатка большим (в нашем примере это Калининградская, Рязанская, Воронежская области), позволило бы существенно улучшить свойства регрессии и повысить точность предсказания объема выпуска.

Рисунок 4. 95%-ный доверительный интервал

В заключение отметим, что парная регрессия довольно редко вступает в качестве эконометрической модели, поскольку исследуемые экономические явления формируются под влиянием не одного, а нескольких факторов. Этим обстоятельством определяется гораздо большая распространенность множественной регрессии в экономическом моделировании.

Теорема Гаусса-Маркова

Теорема Гаусса - Маркова гласит, что при выполнении предпосылок (2) - (5) оценка параметров множественной регрессии, полученная при применении метода наименьших квадратов, , является наиболее эффективной, т. е. обладает наименьшей дисперсией в классе линейных несмещенных оценок (Best Linear Unbiased Estimator — BLUE).

Докажем несмещенность МНК-оценок.

Найдем математическое ожидание оценок параметров множественной линейной регрессии. Используем формулу (9), разложив величину на неслучайную и случайную составляющие:

Раскроем скобки внутри выражения под знаком математического ожидания. Математическое ожидание суммы переменных равно сумме математических ожиданий каждой переменной:

В первом слагаемом произведение матриц дает единичную матрицу , во втором слагаемом выражение можно вынести за скобки как неслучайную величину, а математическое ожидание случайных остатков равно нулю (условие 1). Таким образом, имеем выражение

, (15)

где - единичная матрица.

Несмещенность МНК-оценок доказана. Отметим, что из выражения (15) следует, что

. (16)

Так как оценки параметров уравнения множественной регрессии могут варьировать, можно оценить их дисперсию и ковариацию, обобщив полученные данные в ковариационной матрице оценок параметров уравнения регрессии

(17)

Заметим, что в матрице (17) нумерация строк и столбцов начинается с нуля. Нулевые строка и столбец введены для учета свободного члена уравнения регрессии и соблюдения нумерации коэффициентов регрессии.

Ковариация двух оценок параметров и рассчитывается по формуле

. (18)

Из формулы (18) следует, что ковариация оценки параметра с самой собой равна ее дисперсии:

В матричной форме ковариационную матрицу оценок параметров уравнения регрессии можно записать в виде

. (19)

Преобразуем выражение (19) с учетом выражения (16):

В полученном выражении случайным является только произведение , математическое ожидание остальных множителей как детерминированных величин равно им самим. Таким образом, имеем выражение

. (20)

В выражении (20) сомножители, стоящие до математического ожидания, можно представить в виде

где .

Математическое ожидание представляет собой ковариационную матрицу случайных остатков вида

или

. (21)

В силу условия Гаусса - Маркова о равенстве математического ожидания случайных остатков нулю (условие 1), а также постоянстве дисперсии случайных остатков (условие 2), получаем выражения

;

Согласно условию Гаусса - Маркова о независимости случайных остатков (условие 3) элементы матрицы (21), не стоящие на главной диагонали, равны нулю, т.е. матрица является скалярной:

где — единичная матрица порядка .

Вернувшись к рассмотрению ковариационной матрицы оценок параметров уравнения регрессии, получим выражение

. (22)

Ha главной диагонали матрицы находятся дисперсии параметров уравнения множественной регрессии. Их величины используются для оценки значимости указанных параметров. Отметим, что в выражении (22) дисперсия случайных остатков неизвестна и должна быть оценена по имеющимся у исследователя данным. Можно показать, что несмещенная оценка дисперсии случайных остатков , которая обозначается как , равна

, (23)

где — количество наблюдений; — количество параметров в уравнении регрессии без учета свободного члена.

Таким образом, ковариационная матрица оценок параметров уравнения множественной регрессии будет иметь вид

, (24)

а дисперсия оценки параметра ( при при ), являющаяся диагональным элементом матрицы , может быть оценена по формуле

, (25)

где - элемент матрицы .

Можно показать, что оценки параметров уравнения множественной регрессии и их дисперсии при выполнении условия о распределении остатков по нормальному закону (условие 5) являются независимыми.

Примеры

Простейшая макроэкономическая (кейнсианская) модель

Здесь C и Y — потребление (потребительские расходы) и доход — эндогенные переменные модели, I — инвестиции — экзогенная переменная модели, b — предельная склонность к потреблению

Приведённая форма модели имеет вид:

Величина называется мультипликатором инвестиций (единица увеличения инвестиций приводит к существенно большему изменению дохода).

Можно проверить порядковое условие идентифицируемости. В первом уравнении в правой части 1 эндогенная переменная и нет экзогенных переменных (без учета константы). Всего экзогенных переменных в модели - 1 (тоже без константы). Таким образом, порядковое (необходимое) условие идентифицируемости выполнено.

Видно, что приведённая форма является ограниченной с двумя ограничениями и .

Список литературы

Основная литература

1. Мхитарян В.С. Эконометрика [Электронный ресурс]: учебное пособие/ Мхитарян В.С., Архипова М.Ю., Сиротин В.П.— Электрон. текстовые данные.— М.: Евразийский открытый институт, 2012.— 224 c.— Режим доступа: http: //www.iprbookshop.ru/11125.— ЭБС «IPRbooks», по паролю

2. Эконометрика [Электронный ресурс]: учебник/ К.В. Балдин [и др.].— Электрон. текстовые данные.— М.: Дашков и К, 2011.— 564c.— Режим доступа: http: //www.iprbookshop.ru/5265.— ЭБС «IPRbooks», по паролю

3. Яковлева А.В. Эконометрика [Электронный ресурс]: учебное пособие/ Яковлева А.В.— Электрон. текстовые данные.— Саратов: Научная книга, 2012.— c.— Режим доступа: http: //www.iprbookshop.ru/6266.— ЭБС «IPRbooks», по паролю

Дополнительная литература

1. Афанасьев В.Н. Эконометрика: учебник для вузов / В.Н.Афанасьев, М.М.Юзбашев, Т.И.Гуляева; под ред. В.Н.Афанасьева.— М.: Финансы и статистика, 2006.— 256с.: ил. 1 экз.

2. Дубина И.Н. Математико-статистические методы в эмпирических социально-экономических исследованиях [Электронный ресурс]: учебное пособие/ Дубина И.Н.— Электрон. текстовые данные.— М.: Финансы и статистика, 2013.— 415c.— Режим доступа: http: //www.iprbookshop.ru/12436.— ЭБС «IPRbooks», по паролю

3. Елисеева И.И. Эконометрика: учебник для вузов / И.И.Елисеева [и др.].; под. ред. И.И.Елисеевой.— 2-е изд., перераб. и доп. — М.: Финансы и статистика, 2008.— 576с.: ил.

12 экз.

4. Кочетыгов А.А. Эконометрика: учеб.пособие / А.А.Кочетыгов, Л.А.Толоконников; ТулГУ.— Тула: Изд-во ТулГУ, 2006.— 320с.: ил. 40 экз.

5. Кремер Н.Ш. Эконометрика: учебник для вузов / Н.Ш.Кремер, Б.А.Путко.— М.: ЮНИТИ, 2006.— 311с. 6 экз.

Периодические издания

1. Экономист: научно-практический журнал.— М., 2013.— Издается с 1924 г. — ISSN 0869-4672

2. Прикладная эконометрика: научно-практический журнал. – Режим доступа: http: //elibrary.ru/title_about.asp? id=25180, по паролю

Интернет-ресурсы

1. Электронный читальный зал " БИБЛИОТЕХ": учебники авторов ТулГУ по всем дисциплинам. - Режим доступа: https: //tsutula.bibliotech.ru/, по паролю.- Загл. с экрана

2. ЭБС IPRBooks универсальная базовая коллекция изданий. - Режим доступа: http: //www.iprbookshop.ru/, по паролю.- Загл. с экрана

3. ЭБС издательства «Юрайт».- Режим доступа: http: //biblio-online.ru, по паролю.- Загл. с экрана.

4. Научная Электронная Библиотека eLibrary - библиотека электронной периодики.- Режим доступа: http: //elibrary.ru/, по паролю.- Загл. с экрана.

5. Институт свободы «Московский либертариум»: библиотека материалов по экономической тематике.- Режим доступа: http: //www.libertarium.ru/, свободный. – Загл. с экрана.

6. " Росбизнесконсалтинг": информационное агентство. – Режим доступа: http: //www.rbcholding.ru/, свободный

7. Федеральная служба государственной статистики: официальный сайт.- Режим доступа: http: //www.gks.ru/, свободный. – Загл. с экрана

8. Центральный банк Российской Федерации: официальный сайт.- Режим доступа: http: //www.cbr.ru/, свободный. – Загл. с экрана

9. Экономика. Социология. Менеджмент: федеральный образовательный портал. – Режим доступа: http: //ecsocman.edu.ru/docs, свободный. – Загл. с экрана

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ

УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«ТУЛЬСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ»

Регрессионными остатками называются разности фактических и оцененных значений зависимой переменной:

Если случайные величины при всех , являются некоррелированными и , а - детерминированный вектор, то случайная величина

имеет распределение Стьюдента с степенями свободы.

Гипотеза о конкретном значении коэффициента при двусторонней альтернативной гипотезе проверяется с помощью тестовой статистики:

Если , где - выбранный уровень значимости, то основная гипотеза отвергается.

Если же альтернативная гипотеза односторонняя

то основная гипотеза отвергается при .

Аналогично формулируется и проверяется гипотеза о конкретном значении свободного члена .

Проверка гипотезы о равенстве параметра нулю (обычно при двусторонней альтернативной гипотезе) называется проверкой гипотезы о значимости параметра. Если гипотеза о равенстве параметра нулю не отвергается, то этот параметр называется незначимым.

При оценке параметров регрессии статистическими пакетами Excel, Eviews, STATA, SPSS и др. автоматически проводится проверка гипотез о значимости коэффициентов. Для тестовой t-статистики вычисляется p-value (р - значение) — минимальный уровень значимости, при котором основная гипотеза отвергается. Если p-value превышает выбранный уровень значимости, то основная гипотеза (о равенстве коэффициента нулю) не отвергается.

Если коэффициент является незначимым, то между переменными и не существует статистически значимой линейной связи. Если коэффициент является значимым, то его оценка интерпретируется следующим образом: при увеличении на одну единицу изменяется на единиц (в сторону увеличения при положительном и в сторону уменьшения при отрицательном ).

Пример 1

Имеются статистические данные о значениях двух показателей в разрезе 48 субъектов РФ, которые приведены в табл. 1.

1. Поступление налогов, сборов и иных обязательных платежей в консолидированный бюджет РФ (без поступлений ЕСН) в 2009 г., млн. руб.

2. Количество занятых в Российской Федерации в 2009 г., тыс. человек.

Зависимая переменная — поступление налогов, сборов и иных обязательных платежей в консолидированный бюджет РФ («поступление налогов»). Независимая переменная — «количество занятых» .

Таблица 1. Некоторые экономические показатели деятельности субъектов РФ в 2009 г.

12 3 4 5 6 7 Следующая ⇒