Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Метод наименьших квадратов и предпосылки его применения для множественной линейной регрессии
Для определения значений параметров уравнения множественной регрессии используют числовую информацию, которая рассматривается как выборочная. Поэтому рассчитанные на ее основе величины называют оценками параметров, подчеркивая тем самым их возможную неточность из-за неполноты информации. Оценки параметров могут меняться от выборки к выборке, поэтому они рассматриваются как случайные величины. Далее будем различать обозначения параметров и случайных остатков, полученных по выборке (т.е. по имеющимся у исследователя данным), и значения параметров и случайных остатков по генеральной совокупности. Для обозначения выборочных значений будут использоваться латинские буквы: в матричной форме: ; для генеральных значений - греческие буквы: ; в матричной форме: . Так как найденные параметры являются лишь выборочными оценками неизвестных параметров по генеральной совокупности, то возникает вопрос об их качестве. Характеристиками качества полученных оценок параметров регрессии являются их несмещенность, эффективность и состоятельность. Оценка параметра является несмещенной, если ее математическое ожидание равно оцениваемому параметру. Например, математическое ожидание оценки коэффициента регрессии равно его значению в генеральной совокупности : . Оценка параметра является эффективной, если она имеет наименьшую дисперсию среди всех возможных оценок данного параметра по выборкам одного и того же объема: , где - эффективная оценка параметра ; - дисперсия эффективной оценки параметра ; - дисперсия оценки параметра , полученной при применении -го метода. Оценка параметра является состоятельной, если с увеличением числа наблюдений она стремится к значению параметра в генеральной совокупности: . Простейшим методом оценки параметров множественной регрессии является МНК. МНК - оценки будут несмещенными, эффективными и состоятельными при выполнении определенных требований, называемых предпосылками МНК. Эти требования касаются статистических свойств исходных данных: - независимые переменные являются неслучайными величинами, не связанными между собой; - зависимая переменная является случайной величиной, не ограниченной сверху или снизу; - для каждого набора значений независимых переменных результативная переменная рассматривается как отдельная случайная величина . Ее распределение описывается нормальным законом с математическим ожиданием, равным выровненному значению зависимой переменной: Например, в модели с тремя независимыми переменными имеется наблюдение номер десять . Для этих значений объясняющих переменных результативная переменная является случайной величиной с математическим ожиданием . Вторая характеристика нормального распределения — среднее квадратическое отклонение может быть любым, однако оно должно быть одинаковым для всех случайных величин : ; - разные случайные величины и - должны быть независимы друг от друга: . Линейная модель регрессии, для которой выполняются эти условия, называется классической нормальной линейной моделью. Так как случайная величина в линейной регрессии представляет собой сумму неслучайной величины и случайного остатка , то все перечисленные выше требования к случайной величине можно сформулировать в форме требований к случайным остаткам модели регрессии , которые (кроме последнего требования) называются условиями Гаусса — Маркова. 1. Математическое ожидание случайного остатка равно нулю: . (2) 2. Дисперсия случайных остатков одинакова для различных и : . (3) 3. Случайные остатки не зависят друг (не автокоррелированы): (4) 4. Случайные остатки не зависят от значений независимых переменных, входящих в модель регрессии: . (5) 5. Случайные остатки распределены по нормальному закону распределения. Метод наименьших квадратов основывается на принципе минимизации квадратов отклонений фактических значений результативного признака от его выровненных значений , рассчитанных по уравнению регрессии . (6) Для множественной линейной регрессии выражение (2.6) будет иметь вид Для нахождения экстремума по каждому из неизвестных параметров рассчитывается производная функции и полученное выражение приравнивается к нулю: (7) После преобразований система уравнений (7) имеет вид (8) Система (8) называется системой нормальных уравнений. В матричной форме применение МНК приводит к следующему результату: . (9) Пример 2 Имеются статистические данные о значениях четырех показателей в разрезе 48 субъектов РФ, которые приведены в табл. 5 1. Поступление налогов, сборов и иных обязательных платежей в консолидированный бюджет РФ (без поступлений ЕСН) в 2009 г., млн. руб. 2. Количество занятых в Российской Федерации в 2009 г., тыс. человек. 3. Объем отгруженных товаров собственного производства, выполненных работ и оказанных услуг собственными силами по виду экономической деятельности «Обрабатывающие производства» в Российской Федерации в 2009 г., млн. руб. 4. Объем отгруженных товаров собственного производства, выполненных работ и услуг собственными силами по виду экономической деятельности «Производство и распределение электроэнергии, газа и воды» в Российской Федерации в 2009 г., млн. руб. Предположим, что зависимой переменной в данном случае является «поступление налогов, сборов и иных обязательных платежей в консолидированный бюджет РФ». Для краткости будем называть эту переменную «поступление налогов». Независимыми переменными являются остальные три переменные, которые мы будем называть и обозначать как «количество занятых» , «отгрузка в обрабатывающих производствах» , «производство энергии» . Допустим также, что связь между зависимой и независимыми переменными может быть выражена в виде линейной функции регрессии , а случайные остатки удовлетворяют условиям Гаусса - Маркова. Таблица 5. Некоторые экономические показатели деятельности субъектов РФ в 2009 г.
Источник: данные Росстата. Применяя к исходным данным (см. табл. 5) МНК, оценим параметры регрессии. Система нормальных уравнений для нашего примера имеет вид После вычислений получаем уравнение . Из уравнения регрессии следует, что между сбором налогов и независимыми переменными, входящими в модель, наблюдается прямая связь. Напомним, что коэффициенты при независимых переменных называются коэффициентами регрессии. Они являются абсолютными показателями силы связи и характеризуют среднее изменение зависимой переменной при единичном изменении независимой переменной — сомножителя данного коэффициента при условии неизменности остальных независимых переменных, включенных в уравнение (модель) регрессии. В частности, можно сделать вывод, что с изменением количества занятых на 1 тыс. человек поступление налогов в среднем изменится в ту же сторону на 12, 45 млн. руб. при неизменном объеме отгрузки в обрабатывающих производствах и производстве энергии. Изменение объема отгрузки в обрабатывающих производствах на 1 млн. руб. приведет к изменению поступления налогов в среднем на 0, 06 млн. руб. при неизменных значениях количества занятых и производства энергии. При изменении производства энергии на 1 млн. руб. поступление налогов в среднем изменится на 0, 31 млн. руб. при неизменных значениях количества занятых и объема отгрузки в обрабатывающих производствах. Величины коэффициентов регрессии определяются не только силой связи между показателями, но и масштабом их измерения, и поэтому несравнимы между собой. Для сопоставления независимых переменных по силе их влияния на результативную используют относительные показатели силы связи — коэффициенты эластичности. Общая формула коэффициента эластичности по переменной имеет вид где - частная производная функции регрессии по переменной ; - выровненное значение зависимой переменной при заданном значении переменной . Отметим, что коэффициенты эластичности могут быть рассчитаны для любой функции — как линейной, так и нелинейной. Например, для множественной линейной регрессии коэффициент эластичности по переменной будет равен (10) Из формулы (10) следует, что коэффициент эластичности для линейной функции зависит от конкретных значений независимых переменных, включенных в модель. Так как коэффициент эластичности измеряет влияние переменной на переменную , то значения остальных независимых переменных принято фиксировать на их среднем уровне: Таким образом, при фиксированных значениях других переменных существует целый ряд коэффициентов эластичности по переменной , определяемый областью ее значений. Они называются частными коэффициентами эластичности. Если зафиксировать значение на среднем уровне, получим средний коэффициент эластичности (или коэффициент эластичности для среднего значения ): (11) Как следует из МНК для линейной регрессии, выражение в знаменателе (11) равно среднему значению зависимой переменной, что позволяет упростить формулу: . Коэффициенты эластичности показывают, на сколько процентов в среднем изменится зависимая переменная при изменении переменной на 1% и значениях других независимых переменных, фиксированных на средних уровнях. Так как величина коэффициента эластичности зависит от выбранного значения независимой переменной, при формулировке вывода следует указывать это значение переменной и соответствующее ему выровненное значение зависимой переменной. Рассмотрим средние коэффициенты эластичности для регрессии, полученной в примере 2. Для характеристики силы связи количества занятых и поступления налогов рассчитаем коэффициент эластичности . Следовательно, с изменением количества занятых на 1% от среднего уровня поступление налогов в среднем изменится в ту же сторону на 0, 32% своего среднего уровня при неизменном объеме отгрузки в обрабатывающих производствах и производстве энергии. Коэффициенты эластичности для переменных «объем отгрузки в обрабатывающих производствах» и «производство энергии» рассчитываются и интерпретируются аналогично. Они равны . Сопоставляя полученные коэффициенты эластичности, можно сделать вывод о том, что наиболее сильное влияние на сбор налогов оказывает число занятых. Другими относительными показателями силы связи являются стандартизованные коэффициенты регрессии. В отличие от коэффициентов эластичности, они рассчитываются только для случая множественной линейной регрессии по формуле . Для примера 2 стандартизованные коэффициенты регрессии равны Стандартизованные коэффициенты регрессии могут быть проинтерпретированы. Величина показывает, на сколько своих средних квадратических отклонений в среднем изменится зависимая переменная при изменении переменной на одно свое среднее квадратическое отклонение при фиксированных значениях других переменных, включенных в модель регрессии. Например, при изменении количества занятых на 1 поступление налогов в среднем изменится в ту же сторону на 0, 32 при неизменном объеме отгрузки в обрабатывающих производствах и производстве энергии. Сопоставление стандартизованных коэффициентов регрессии для примера 2.1 приводит к другим, чем по коэффициентам эластичности, выводам о том, какая переменная оказывает более сильное влияние на результативную переменную. В данном случае это , т.е. объем отгрузки в обрабатывающих производствах. Такое изменение в выводах объясняется разным уровнем вариации независимых переменных. Можно показать, что отношение стандартизованных коэффициентов регрессии равно , где , - коэффициенты вариации переменных и . Стандартизованные коэффициенты регрессии являются коэффициентами в функции регрессии, построенной на основе стандартизованных переменных -переменных, полученных в результате преобразования исходных данных по формулам , где - -e значение стандартизованной зависимой переменной; - -e значение стандартизованной -й независимой переменной; - средние значения переменных ; - средние квадратические отклонения переменных . Уравнение регрессии, включающее стандартизованные переменные, называют уравнением регрессии в стандартизованном масштабе (форме, виде): , (12) где - случайный остаток. Так как уравнение построено на основе непреобразованных переменных, его еще называют уравнением регрессии в натуральном масштабе. Особенностью уравнения регрессии в стандартизованном масштабе является отсутствие в нем свободного члена. Это свойство является следствием двух утверждений: - среднее значение стандартизованной переменной равно нулю; - свободный член уравнения множественной линейной регрессии равен . Таким образом, прямая, построенная на основе уравнения регрессии в стандартизованном масштабе, всегда проходит через начало координат. Этим же свойством обладает уравнение регрессии, построенное на основе центрированных переменных, которые рассчитываются по формулам . (13) При использовании центрированных переменных коэффициенты регрессии и случайные остатки равны коэффициентам регрессии и случайным остаткам уравнения в натуральном масштабе: . (14) На рис. 4 дана геометрическая интерпретация МНК для множественной линейной регрессии.
Рисунок 4. Геометрическая интерпретация МНК Каждую переменную, образующую столбец матрицы , можно рассматривать как вектор-столбец где . Так как векторы образуют многомерное пространство, изобразить их на рисунке невозможно. Можно, однако, воспользоваться тем, что вектор (содержащий выровненные значения зависимой переменной) является линейной комбинацией векторов . На рис. 4 это вектор , лежащий в подпространстве, образованном независимыми переменными, которое называют пространством оценок. Вектор лежит вне этого подпространства. Для удобства будем считать, что все векторы выходят из точки 0. Тогда начало вектора также будет исходить из точки 0. При формировании проекции вектора на пространство оценок наименьшую длину будет иметь перпендикуляр к этому пространству - вектор случайных остатков . Следовательно, параметры вектора выровненных значений должны быть подобраны таким образом, чтобы векторы сформировали прямоугольный треугольник. Так как вектор ортогонален вектору , то их произведение равно нулю: Из последнего выражения следует, что вектор параметров или равен нулю (нулевая проекция, вектор ортогонален векторам , переменная не зависит от переменных ), или . Откуда . Таким образом, на основе геометрической интерпретации мы получили ту же формулу для оценки параметров регрессии, что и аналитическим путем. Теорема Гаусса-Маркова Теорема Гаусса - Маркова гласит, что при выполнении предпосылок (2) - (5) оценка параметров множественной регрессии, полученная при применении метода наименьших квадратов, , является наиболее эффективной, т. е. обладает наименьшей дисперсией в классе линейных несмещенных оценок (Best Linear Unbiased Estimator — BLUE). Докажем несмещенность МНК-оценок. Найдем математическое ожидание оценок параметров множественной линейной регрессии. Используем формулу (9), разложив величину на неслучайную и случайную составляющие: . Раскроем скобки внутри выражения под знаком математического ожидания. Математическое ожидание суммы переменных равно сумме математических ожиданий каждой переменной: . В первом слагаемом произведение матриц дает единичную матрицу , во втором слагаемом выражение можно вынести за скобки как неслучайную величину, а математическое ожидание случайных остатков равно нулю (условие 1). Таким образом, имеем выражение , (15) где - единичная матрица. Несмещенность МНК-оценок доказана. Отметим, что из выражения (15) следует, что . (16) Так как оценки параметров уравнения множественной регрессии могут варьировать, можно оценить их дисперсию и ковариацию, обобщив полученные данные в ковариационной матрице оценок параметров уравнения регрессии (17) Заметим, что в матрице (17) нумерация строк и столбцов начинается с нуля. Нулевые строка и столбец введены для учета свободного члена уравнения регрессии и соблюдения нумерации коэффициентов регрессии. Ковариация двух оценок параметров и рассчитывается по формуле . (18) Из формулы (18) следует, что ковариация оценки параметра с самой собой равна ее дисперсии: . В матричной форме ковариационную матрицу оценок параметров уравнения регрессии можно записать в виде . (19) Преобразуем выражение (19) с учетом выражения (16): В полученном выражении случайным является только произведение , математическое ожидание остальных множителей как детерминированных величин равно им самим. Таким образом, имеем выражение . (20) В выражении (20) сомножители, стоящие до математического ожидания, можно представить в виде , где . Математическое ожидание представляет собой ковариационную матрицу случайных остатков вида , или . (21) В силу условия Гаусса - Маркова о равенстве математического ожидания случайных остатков нулю (условие 1), а также постоянстве дисперсии случайных остатков (условие 2), получаем выражения ; . Согласно условию Гаусса - Маркова о независимости случайных остатков (условие 3) элементы матрицы (21), не стоящие на главной диагонали, равны нулю, т.е. матрица является скалярной: , где — единичная матрица порядка . Вернувшись к рассмотрению ковариационной матрицы оценок параметров уравнения регрессии, получим выражение . (22) Ha главной диагонали матрицы находятся дисперсии параметров уравнения множественной регрессии. Их величины используются для оценки значимости указанных параметров. Отметим, что в выражении (22) дисперсия случайных остатков неизвестна и должна быть оценена по имеющимся у исследователя данным. Можно показать, что несмещенная оценка дисперсии случайных остатков , которая обозначается как , равна , (23) где — количество наблюдений; — количество параметров в уравнении регрессии без учета свободного члена. Таким образом, ковариационная матрица оценок параметров уравнения множественной регрессии будет иметь вид , (24) а дисперсия оценки параметра ( при при ), являющаяся диагональным элементом матрицы , может быть оценена по формуле , (25) где - элемент матрицы . Можно показать, что оценки параметров уравнения множественной регрессии и их дисперсии при выполнении условия о распределении остатков по нормальному закону (условие 5) являются независимыми. Популярное:
|
Последнее изменение этой страницы: 2016-03-25; Просмотров: 1182; Нарушение авторского права страницы