Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Метод наименьших квадратов и предпосылки его применения для множественной линейной регрессии



Для определения значений параметров уравнения множес­твенной регрессии используют числовую информацию, ко­торая рассматривается как выборочная. Поэтому рассчитан­ные на ее основе величины называют оценками параметров, подчеркивая тем самым их возможную неточность из-за не­полноты информации. Оценки параметров могут меняться от выборки к выборке, поэтому они рассматриваются как слу­чайные величины.

Далее будем различать обозначения параметров и случайных остатков, полученных по выборке (т.е. по имеющимся у исследователя данным), и значения параметров и случайных остатков по генеральной совокупности. Для обозначения выборочных значений будут использоваться латинские буквы: в матричной форме: ; для генеральных значений - греческие буквы: ; в матрич­ной форме: .

Так как найденные параметры являются лишь выборочными оценками неизвестных параметров по генеральной совокупности, то возникает вопрос об их качестве. Характеристиками качества полученных оценок параметров регрессии являются их несмещенность, эффективность и состоятельность.

Оценка параметра является несмещенной, если ее матема­тическое ожидание равно оцениваемому параметру. Например, математическое ожидание оценки коэффициента регрессии равно его значению в генеральной совокупности :

.

Оценка параметра является эффективной, если она имеет наименьшую дисперсию среди всех возможных оценок данно­го параметра по выборкам одного и того же объема:

,

где - эффективная оценка параметра ; - дисперсия эффективной оценки параметра ; - дисперсия оценки пара­метра , полученной при применении -го метода.

Оценка параметра является состоятельной, если с увели­чением числа наблюдений она стремится к значению параметра в генеральной совокупности:

.

Простейшим методом оценки параметров множественной регрессии является МНК. МНК - оценки будут несмещенными, эффективными и состоятельными при выполнении определен­ных требований, называемых предпосылками МНК. Эти тре­бования касаются статистических свойств исходных данных:

- независимые переменные являются неслучайными ве­личинами, не связанными между собой;

- зависимая переменная является случайной величиной, не ограниченной сверху или снизу;

- для каждого набора значений независимых переменных результативная переменная рассматривается как отде­льная случайная величина . Ее распределение описы­вается нормальным законом с математическим ожи­данием, равным выровненному значению зависимой переменной:

Например, в модели с тремя независимыми переменны­ми имеется наблюдение номер десять . Для этих значений объясняющих переменных результативная переменная является случайной величиной с математичес­ким ожиданием .

Вторая характеристика нормального распределения — сред­нее квадратическое отклонение может быть любым, однако оно должно быть одинаковым для всех случайных величин :

;

- разные случайные величины и - должны быть незави­симы друг от друга:

.

Линейная модель регрессии, для которой выполняются эти условия, называется классической нормальной линей­ной моделью.

Так как случайная величина в линейной регрессии пред­ставляет собой сумму неслучайной величины и случайного остатка , то все перечисленные выше требования к случай­ной величине можно сформулировать в форме требований к случайным остаткам модели регрессии , которые (кро­ме последнего требования) называются условиями Гаусса Маркова.

1. Математическое ожидание случайного остатка равно нулю:

. (2)

2. Дисперсия случайных остатков одинакова для различ­ных и :

. (3)

3. Случайные остатки не зависят друг (не автокоррелированы):

(4)

4. Случайные остатки не зависят от значений независимых переменных, входящих в модель регрессии:

. (5)

5. Случайные остатки распределены по нормальному зако­ну распределения.

Метод наименьших квадратов основывается на принципе минимизации квадратов отклонений фактических значений результативного признака от его выровненных значений , рассчитанных по уравнению регрессии

. (6)

Для множественной линейной регрессии выражение (2.6) будет иметь вид

Для нахождения экстремума по каждому из неизвестных па­раметров рассчитывается производная функции и полученное выражение приравнивается к нулю:

(7)

После преобразований система уравнений (7) имеет вид

(8)

Система (8) называется системой нормальных уравнений.

В матричной форме применение МНК приводит к следую­щему результату:

. (9)

Пример 2

Имеются статистические данные о значениях четырех по­казателей в разрезе 48 субъектов РФ, которые приведены в табл. 5

1. Поступление налогов, сборов и иных обязательных пла­тежей в консолидированный бюджет РФ (без поступлений ЕСН) в 2009 г., млн. руб.

2. Количество занятых в Российской Федерации в 2009 г., тыс. человек.

3. Объем отгруженных товаров собственного производства, выполненных работ и оказанных услуг собственными силами по виду экономической деятельности «Обрабатывающие про­изводства» в Российской Федерации в 2009 г., млн. руб.

4. Объем отгруженных товаров собственного производства, выполненных работ и услуг собственными силами по виду экономической деятельности «Производство и распределе­ние электроэнергии, газа и воды» в Российской Федерации в 2009 г., млн. руб.

Предположим, что зависимой переменной в данном случае является «поступление налогов, сборов и иных обязательных платежей в консолидированный бюджет РФ». Для кратко­сти будем называть эту переменную «поступление налогов». Независимыми переменными являются остальные три пере­менные, которые мы будем называть и обозначать как «коли­чество занятых» , «отгрузка в обрабатывающих производ­ствах» , «производство энергии» . Допустим также, что связь между зависимой и независимыми переменными может быть выражена в виде линейной функции регрессии

,

а случайные остатки удовлетворяют условиям Гаусса - Маркова.

Таблица 5. Некоторые экономические показатели деятельности субъектов РФ в 2009 г.

Субъект РФ   Поступление налогов, млн. руб. Количество занятых, тыс. человек Отгрузка в об­рабатываю­щих производ­ствах, млн. руб. Произ­водство энергии. млн. руб.
 
Республика Ингушетия 1422, 20 107, 20
Еврейская автономная область 2529, 70 82, 30
Республика Тыва 2629, 10 101, 60
Республика Алтай 2764, 30 87, 60
Карачаево-Черкесская Республика 3347, 50 188, 30 10 921
Республика Калмыкия 3914, 20 121, 90
Республика Адыгея 4400, 80 187, 10 12 565
Республика Северная Осетия - Алания 5904, 00 326, 50 11 088
Магаданская область 6956, 70 97, 10
Кабардино-Балкарская Респуб­лика 7595, 10 352, 50 17 609
Республика Хакасия 9257, 80 254, 70 39 640 17 634
Чукотский автономный округ 9317, 10 30, 50
Республика Марий Эл 9978, 80 323, 70 46 180
Псковская область 10 144, 80 323, 30 32 074
Чеченская Республика 10 215, 40 357, 00
Республика Карелия 11 349, 50 337, 80 39 962 14 684
Курганская область 12 046, 90 393, 00 38 308 12 093
Республика Мордовия 12 061, 40 439, 00 65 507
Костромская область 12 104, 20 340, 90 50 532 20 922
Камчатский край 13 042, 40 190, 00 11 245 12 721
Орловская область 13 104, 30 375, 00 38 089
Ивановская область 13 396, 40 491, 20 42 865 18 506
Республика Дагестан 14 170, 30 1104, 10 21 031 12 573
Тамбовская область 14 227, 00 499, 50 47 738
Новгородская область 16 868, 50 322, 50 80 915
Республика Бурятия 18 019, 40 392, 30 29 660 12 532
Смоленская область 18 950, 30 505, 40 78 278 43 604
Курская область 19 995, 50 536, 50 67 241 43 733
Забайкальский край 20 445, 60 482, 00 13 687
Липецкая область 21 220, 80 575, 50 228 812 17 311
Ульяновская область 21 360, 00 619, 10 76 523 16 471
Пензенская область 21 418, 80 634, 30 71 307 12 061
Кировская область 21 477, 10 684, 00 76 151 20 857
Чувашская Республика 21 816, 30 608, 40 85 926 17 071
Астраханская область 22 824, 90 475, 80 34 576 10 532
Брянская область 23 579, 30 569, 80 57 187 10 519
Амурская область 23 702, 60 417, 30 16 412 16 512
Калужская область 24 007, 20 530, 50 161 769 10 369
Тульская область 27 581, 20 746, 60 182 031 24 376
Вологодская область 28 057, 50 617, 80 236 267 23 180
Алтайский край 29 815, 50 1125, 50 115 197 24 804
Тверская область 32 236, 50 687, 40 103 158 44 961
Белгородская область 32 657, 40 754, 90 233 608 18 773
Владимирская область 32 672, 70_ 688, 40 142 867 20 093
Мурманская область 34 351, 10 482, 20 49 081 34 395
Воронежская область 36 050, 40 1042, 40 125 343 39 170
Рязанская область 36 544, 30 522, 00 95 522 23 932
Калининградская область 37 136, 90 459, 50 147 573 15 429

Источник: данные Росстата.

Применяя к исходным данным (см. табл. 5) МНК, оценим параметры регрессии.

Система нормальных уравнений для нашего примера имеет вид

После вычислений получаем уравнение

.

Из уравнения регрессии следует, что между сбором налогов и независимыми переменными, входящими в модель, наблю­дается прямая связь. Напомним, что коэффициенты при неза­висимых переменных называются коэффициентами регрес­сии. Они являются абсолютными показателями силы связи и характеризуют среднее изменение зависимой переменной при единичном изменении независимой переменной — сом­ножителя данного коэффициента при условии неизменности остальных независимых переменных, включенных в уравне­ние (модель) регрессии.

В частности, можно сделать вывод, что с изменением коли­чества занятых на 1 тыс. человек поступление налогов в сред­нем изменится в ту же сторону на 12, 45 млн. руб. при неиз­менном объеме отгрузки в обрабатывающих производствах и производстве энергии.

Изменение объема отгрузки в обрабатывающих производст­вах на 1 млн. руб. приведет к изменению поступления налогов в среднем на 0, 06 млн. руб. при неизменных значениях коли­чества занятых и производства энергии. При изменении производства энергии на 1 млн. руб. поступ­ление налогов в среднем изменится на 0, 31 млн. руб. при не­изменных значениях количества занятых и объема отгрузки в обрабатывающих производствах.

Величины коэффициентов регрессии определяются не толь­ко силой связи между показателями, но и масштабом их изме­рения, и поэтому несравнимы между собой. Для сопоставления независимых переменных по силе их влияния на результатив­ную используют относительные показатели силы связи — ко­эффициенты эластичности.

Общая формула коэффициента эластичности по перемен­ной имеет вид

где - частная производная функции регрессии по перемен­ной ; - выровненное значение зависимой переменной при за­данном значении переменной .

Отметим, что коэффициенты эластичности могут быть рас­считаны для любой функции — как линейной, так и нелиней­ной. Например, для множественной линейной регрессии ко­эффициент эластичности по переменной будет равен

(10)

Из формулы (10) следует, что коэффициент эластичности для линейной функции зависит от конкретных значений неза­висимых переменных, включенных в модель. Так как коэффи­циент эластичности измеряет влияние переменной на пере­менную , то значения остальных независимых переменных принято фиксировать на их среднем уровне:

Таким образом, при фиксированных значениях других пере­менных существует целый ряд коэффициентов эластичности по переменной , определяемый областью ее значений. Они называются частными коэффициентами эластичности. Если зафиксировать значение на среднем уровне, получим сред­ний коэффициент эластичности (или коэффициент эластичности для среднего значения ):

(11)

Как следует из МНК для линейной регрессии, выражение в знаменателе (11) равно среднему значению зависимой пе­ременной, что позволяет упростить формулу:

.

Коэффициенты эластичности показывают, на сколько про­центов в среднем изменится зависимая переменная при изме­нении переменной на 1% и значениях других независимых переменных, фиксированных на средних уровнях. Так как ве­личина коэффициента эластичности зависит от выбранного значения независимой переменной, при формулировке вывода следует указывать это значение переменной и соответствую­щее ему выровненное значение зависимой переменной.

Рассмотрим средние коэффициенты эластичности для рег­рессии, полученной в примере 2.

Для характеристики силы связи количества занятых и пос­тупления налогов рассчитаем коэффициент эластичности

.

Следовательно, с изменением количества занятых на 1% от среднего уровня поступление налогов в среднем изменит­ся в ту же сторону на 0, 32% своего среднего уровня при неиз­менном объеме отгрузки в обрабатывающих производствах и производстве энергии.

Коэффициенты эластичности для переменных «объем от­грузки в обрабатывающих производствах» и «производство энергии» рассчитываются и интерпретируются аналогично. Они равны

.

Сопоставляя полученные коэффициенты эластичности, мож­но сделать вывод о том, что наиболее сильное влияние на сбор налогов оказывает число занятых.

Другими относительными показателями силы связи являются стандартизованные коэффициенты регрессии. В отличие от коэффициентов эластичности, они рассчитываются только для случая множественной линейной регрессии по формуле

.

Для примера 2 стандартизованные коэффициенты регрессии равны

Стандартизованные коэффициенты регрессии могут быть проинтерпретированы. Величина показывает, на сколько своих средних квадратических отклонений в среднем из­менится зависимая переменная при изменении переменной на одно свое среднее квадратическое отклонение при фик­сированных значениях других переменных, включенных в мо­дель регрессии. Например, при изменении количества заня­тых на 1 поступление налогов в среднем изменится в ту же сторону на 0, 32 при неизменном объеме отгрузки в обраба­тывающих производствах и производстве энергии.

Сопоставление стандартизованных коэффициентов регрес­сии для примера 2.1 приводит к другим, чем по коэффициен­там эластичности, выводам о том, какая переменная оказы­вает более сильное влияние на результативную переменную. В данном случае это , т.е. объем отгрузки в обрабатывающих производствах. Такое изменение в выводах объясняется раз­ным уровнем вариации независимых переменных. Можно показать, что отношение стандартизованных коэффициен­тов регрессии равно

,

где , - коэффициенты вариации переменных и .

Стандартизованные коэффициенты регрессии являются ко­эффициентами в функции регрессии, построенной на основе стандартизованных переменных -переменных, полученных в результате преобразования исходных данных по формулам

,

где - -e значение стандартизованной зависимой переменной; - -e значение

стандартизованной -й независимой переменной; - средние значения переменных ; - средние квадратические отклонения переменных .

Уравнение регрессии, включающее стандартизованные пе­ременные, называют уравнением регрессии в стандартизо­ванном масштабе (форме, виде):

, (12)

где - случайный остаток.

Так как уравнение построено на основе непреобразованных переменных, его еще называ­ют уравнением регрессии в натуральном масштабе.

Особенностью уравнения регрессии в стандартизованном масштабе является отсутствие в нем свободного члена. Это свойство является следствием двух утверждений:

- среднее значение стандартизованной переменной рав­но нулю;

- свободный член уравнения множественной линейной регрессии равен

.

Таким образом, прямая, построенная на основе уравнения регрессии в стандартизованном масштабе, всегда проходит через начало координат. Этим же свойством обладает уравне­ние регрессии, построенное на основе центрированных переменных, которые рассчитываются по формулам

. (13)

При использовании центрированных переменных коэффи­циенты регрессии и случайные остатки равны коэффициен­там регрессии и случайным остаткам уравнения в натураль­ном масштабе:

. (14)

 
 

На рис. 4 дана геометрическая интерпретация МНК для множественной линейной регрессии.

 

Рисунок 4. Геометрическая интерпретация МНК

Каждую перемен­ную, образующую столбец матрицы , можно рассматривать как вектор-столбец где . Так как векторы обра­зуют многомерное пространство, изобразить их на рисунке не­возможно. Можно, однако, воспользоваться тем, что вектор (содержащий выровненные значения зависимой переменной) является линейной комбинацией векторов . На рис. 4 это вектор , лежащий в подпространстве, образованном независимыми переменными, которое называют простран­ством оценок. Вектор лежит вне этого подпространства. Для удобства будем считать, что все векторы выходят из точ­ки 0. Тогда начало вектора также будет исходить из точки 0. При формировании проекции вектора на пространство оце­нок наименьшую длину будет иметь перпендикуляр к этому пространству - вектор случайных остатков . Следовательно, параметры вектора выровненных значений должны быть подобраны таким образом, чтобы векторы сфор­мировали прямоугольный треугольник.

Так как вектор ортогонален вектору , то их произведе­ние равно нулю:

Из последнего выражения следует, что вектор параметров или равен нулю (нулевая проекция, вектор ортогонален векторам , переменная не зависит от переменных ), или

.

Откуда

.

Таким образом, на основе геометрической интерпретации мы получили ту же формулу для оценки параметров регрес­сии, что и аналитическим путем.

Теорема Гаусса-Маркова

Теорема Гаусса - Маркова гласит, что при выполнении пред­посылок (2) - (5) оценка параметров множественной рег­рессии, полученная при применении метода наименьших квад­ратов, , является наиболее эффективной, т. е. обладает наименьшей дисперсией в классе линейных несме­щенных оценок (Best Linear Unbiased Estimator BLUE).

Докажем несмещенность МНК-оценок.

Найдем математическое ожидание оценок параметров мно­жественной линейной регрессии. Используем формулу (9), разложив величину на неслучайную и случайную составля­ющие:

.

Раскроем скобки внутри выражения под знаком матема­тического ожидания. Математическое ожидание суммы пе­ременных равно сумме математических ожиданий каждой переменной:

.

В первом слагаемом произведение матриц дает единичную матрицу , во втором слагаемом выражение можно вынести за скобки как неслучайную вели­чину, а математическое ожидание случайных остатков равно нулю (условие 1). Таким образом, имеем выражение

, (15)

где - единичная матрица.

Несмещенность МНК-оценок доказана. Отметим, что из вы­ражения (15) следует, что

. (16)

Так как оценки параметров уравнения множественной рег­рессии могут варьировать, можно оценить их дисперсию и ковариацию, обобщив полученные данные в ковариационной матрице оценок параметров уравнения регрессии

(17)

Заметим, что в матрице (17) нумерация строк и столбцов начинается с нуля. Нулевые строка и столбец введены для уче­та свободного члена уравнения регрессии и соблюдения нуме­рации коэффициентов регрессии.

Ковариация двух оценок параметров и рассчитывает­ся по формуле

. (18)

Из формулы (18) следует, что ковариация оценки параме­тра с самой собой равна ее дисперсии:

.

В матричной форме ковариационную матрицу оценок па­раметров уравнения регрессии можно записать в виде

. (19)

Преобразуем выражение (19) с учетом выражения (16):

В полученном выражении случайным является только про­изведение , математическое ожидание остальных множите­лей как детерминированных величин равно им самим. Таким образом, имеем выражение

. (20)

В выражении (20) сомножители, стоящие до математического ожидания, можно представить в виде

,

где .

Математическое ожидание представляет собой ко­вариационную матрицу случайных остатков вида

,

или

. (21)

В силу условия Гаусса - Маркова о равенстве математиче­ского ожидания случайных остатков нулю (условие 1), а так­же постоянстве дисперсии случайных остатков (условие 2), получаем выражения

;

.

Согласно условию Гаусса - Маркова о независимости слу­чайных остатков (условие 3) элементы матрицы (21), не сто­ящие на главной диагонали, равны нулю, т.е. матрица явля­ется скалярной:

,

где — единичная матрица порядка .

Вернувшись к рассмотрению ковариационной матрицы оценок параметров уравнения регрессии, получим выражение

. (22)

Ha главной диагонали матрицы находятся дисперсии параметров уравнения множественной регрессии. Их величи­ны используются для оценки значимости указанных парамет­ров. Отметим, что в выражении (22) дисперсия случайных остатков неизвестна и должна быть оценена по имеющимся у исследователя данным. Можно показать, что несмещенная оценка дисперсии случайных остатков , которая обозначается как , равна

, (23)

где — количество наблюдений; — количество параметров в урав­нении регрессии без учета свободного члена.

Таким образом, ковариационная матрица оценок парамет­ров уравнения множественной регрессии будет иметь вид

, (24)

а дисперсия оценки параметра ( при при ), являющаяся диагональным элементом матри­цы , может быть оценена по формуле

, (25)

где - элемент матрицы .

Можно показать, что оценки параметров уравнения мно­жественной регрессии и их дисперсии при выполнении условия о распределении остатков по нормальному закону (условие 5) являются независимыми.


Поделиться:



Популярное:

Последнее изменение этой страницы: 2016-03-25; Просмотров: 1182; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.126 с.)
Главная | Случайная страница | Обратная связь