![]() |
Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Метод наименьших квадратов и предпосылки его применения для множественной линейной регрессии
Для определения значений параметров уравнения множественной регрессии используют числовую информацию, которая рассматривается как выборочная. Поэтому рассчитанные на ее основе величины называют оценками параметров, подчеркивая тем самым их возможную неточность из-за неполноты информации. Оценки параметров могут меняться от выборки к выборке, поэтому они рассматриваются как случайные величины. Далее будем различать обозначения параметров и случайных остатков, полученных по выборке (т.е. по имеющимся у исследователя данным), и значения параметров и случайных остатков по генеральной совокупности. Для обозначения выборочных значений будут использоваться латинские буквы: Так как найденные параметры являются лишь выборочными оценками неизвестных параметров по генеральной совокупности, то возникает вопрос об их качестве. Характеристиками качества полученных оценок параметров регрессии являются их несмещенность, эффективность и состоятельность. Оценка параметра является несмещенной, если ее математическое ожидание равно оцениваемому параметру. Например, математическое ожидание оценки коэффициента регрессии
Оценка параметра является эффективной, если она имеет наименьшую дисперсию среди всех возможных оценок данного параметра по выборкам одного и того же объема:
где Оценка параметра является состоятельной, если с увеличением числа наблюдений она стремится к значению параметра в генеральной совокупности:
Простейшим методом оценки параметров множественной регрессии является МНК. МНК - оценки будут несмещенными, эффективными и состоятельными при выполнении определенных требований, называемых предпосылками МНК. Эти требования касаются статистических свойств исходных данных: - независимые переменные являются неслучайными величинами, не связанными между собой; - зависимая переменная является случайной величиной, не ограниченной сверху или снизу; - для каждого набора значений независимых переменных результативная переменная рассматривается как отдельная случайная величина Например, в модели с тремя независимыми переменными имеется наблюдение номер десять Вторая характеристика нормального распределения — среднее квадратическое отклонение
- разные случайные величины
Линейная модель регрессии, для которой выполняются эти условия, называется классической нормальной линейной моделью. Так как случайная величина 1. Математическое ожидание случайного остатка равно нулю:
2. Дисперсия случайных остатков одинакова для различных
3. Случайные остатки не зависят друг (не автокоррелированы):
4. Случайные остатки не зависят от значений независимых переменных, входящих в модель регрессии:
5. Случайные остатки распределены по нормальному закону распределения. Метод наименьших квадратов основывается на принципе минимизации квадратов отклонений фактических значений результативного признака
Для множественной линейной регрессии выражение (2.6) будет иметь вид Для нахождения экстремума по каждому из неизвестных параметров
После преобразований система уравнений (7) имеет вид
Система (8) называется системой нормальных уравнений. В матричной форме применение МНК приводит к следующему результату:
Пример 2 Имеются статистические данные о значениях четырех показателей в разрезе 48 субъектов РФ, которые приведены в табл. 5 1. Поступление налогов, сборов и иных обязательных платежей в консолидированный бюджет РФ (без поступлений ЕСН) в 2009 г., млн. руб. 2. Количество занятых в Российской Федерации в 2009 г., тыс. человек. 3. Объем отгруженных товаров собственного производства, выполненных работ и оказанных услуг собственными силами по виду экономической деятельности «Обрабатывающие производства» в Российской Федерации в 2009 г., млн. руб. 4. Объем отгруженных товаров собственного производства, выполненных работ и услуг собственными силами по виду экономической деятельности «Производство и распределение электроэнергии, газа и воды» в Российской Федерации в 2009 г., млн. руб. Предположим, что зависимой переменной
а случайные остатки удовлетворяют условиям Гаусса - Маркова. Таблица 5. Некоторые экономические показатели деятельности субъектов РФ в 2009 г.
Источник: данные Росстата. Применяя к исходным данным (см. табл. 5) МНК, оценим параметры регрессии. Система нормальных уравнений для нашего примера имеет вид После вычислений получаем уравнение
Из уравнения регрессии следует, что между сбором налогов и независимыми переменными, входящими в модель, наблюдается прямая связь. Напомним, что коэффициенты при независимых переменных называются коэффициентами регрессии. Они являются абсолютными показателями силы связи и характеризуют среднее изменение зависимой переменной при единичном изменении независимой переменной — сомножителя данного коэффициента при условии неизменности остальных независимых переменных, включенных в уравнение (модель) регрессии. В частности, можно сделать вывод, что с изменением количества занятых на 1 тыс. человек поступление налогов в среднем изменится в ту же сторону на 12, 45 млн. руб. при неизменном объеме отгрузки в обрабатывающих производствах и производстве энергии. Изменение объема отгрузки в обрабатывающих производствах на 1 млн. руб. приведет к изменению поступления налогов в среднем на 0, 06 млн. руб. при неизменных значениях количества занятых и производства энергии. При изменении производства энергии на 1 млн. руб. поступление налогов в среднем изменится на 0, 31 млн. руб. при неизменных значениях количества занятых и объема отгрузки в обрабатывающих производствах. Величины коэффициентов регрессии определяются не только силой связи между показателями, но и масштабом их измерения, и поэтому несравнимы между собой. Для сопоставления независимых переменных по силе их влияния на результативную используют относительные показатели силы связи — коэффициенты эластичности. Общая формула коэффициента эластичности по переменной где Отметим, что коэффициенты эластичности могут быть рассчитаны для любой функции — как линейной, так и нелинейной. Например, для множественной линейной регрессии коэффициент эластичности по переменной
Из формулы (10) следует, что коэффициент эластичности для линейной функции зависит от конкретных значений независимых переменных, включенных в модель. Так как коэффициент эластичности измеряет влияние переменной Таким образом, при фиксированных значениях других переменных существует целый ряд коэффициентов эластичности по переменной
Как следует из МНК для линейной регрессии, выражение в знаменателе (11) равно среднему значению зависимой переменной, что позволяет упростить формулу:
Коэффициенты эластичности показывают, на сколько процентов в среднем изменится зависимая переменная при изменении переменной Рассмотрим средние коэффициенты эластичности для регрессии, полученной в примере 2. Для характеристики силы связи количества занятых и поступления налогов рассчитаем коэффициент эластичности
Следовательно, с изменением количества занятых на 1% от среднего уровня поступление налогов в среднем изменится в ту же сторону на 0, 32% своего среднего уровня при неизменном объеме отгрузки в обрабатывающих производствах и производстве энергии. Коэффициенты эластичности для переменных «объем отгрузки в обрабатывающих производствах» и «производство энергии» рассчитываются и интерпретируются аналогично. Они равны
Сопоставляя полученные коэффициенты эластичности, можно сделать вывод о том, что наиболее сильное влияние на сбор налогов оказывает число занятых. Другими относительными показателями силы связи являются стандартизованные коэффициенты регрессии. В отличие от коэффициентов эластичности, они рассчитываются только для случая множественной линейной регрессии по формуле
Для примера 2 стандартизованные коэффициенты регрессии равны Стандартизованные коэффициенты регрессии могут быть проинтерпретированы. Величина Сопоставление стандартизованных коэффициентов регрессии для примера 2.1 приводит к другим, чем по коэффициентам эластичности, выводам о том, какая переменная оказывает более сильное влияние на результативную переменную. В данном случае это
где Стандартизованные коэффициенты регрессии являются коэффициентами в функции регрессии, построенной на основе стандартизованных переменных -переменных, полученных в результате преобразования исходных данных по формулам
где стандартизованной Уравнение регрессии, включающее стандартизованные переменные, называют уравнением регрессии в стандартизованном масштабе (форме, виде):
где Так как уравнение Особенностью уравнения регрессии в стандартизованном масштабе является отсутствие в нем свободного члена. Это свойство является следствием двух утверждений: - среднее значение стандартизованной переменной равно нулю; - свободный член уравнения множественной линейной регрессии равен
Таким образом, прямая, построенная на основе уравнения регрессии в стандартизованном масштабе, всегда проходит через начало координат. Этим же свойством обладает уравнение регрессии, построенное на основе центрированных переменных, которые рассчитываются по формулам
При использовании центрированных переменных коэффициенты регрессии и случайные остатки равны коэффициентам регрессии и случайным остаткам уравнения в натуральном масштабе:
На рис. 4 дана геометрическая интерпретация МНК для множественной линейной регрессии.
Рисунок 4. Геометрическая интерпретация МНК Каждую переменную, образующую столбец матрицы Так как вектор Из последнего выражения следует, что вектор параметров
Откуда
Таким образом, на основе геометрической интерпретации мы получили ту же формулу для оценки параметров регрессии, что и аналитическим путем. Теорема Гаусса-Маркова Теорема Гаусса - Маркова гласит, что при выполнении предпосылок (2) - (5) оценка параметров множественной регрессии, полученная при применении метода наименьших квадратов, Докажем несмещенность МНК-оценок. Найдем математическое ожидание оценок параметров множественной линейной регрессии. Используем формулу (9), разложив величину
Раскроем скобки внутри выражения под знаком математического ожидания. Математическое ожидание суммы переменных равно сумме математических ожиданий каждой переменной:
В первом слагаемом произведение матриц
где Несмещенность МНК-оценок доказана. Отметим, что из выражения (15) следует, что
Так как оценки параметров уравнения множественной регрессии могут варьировать, можно оценить их дисперсию и ковариацию, обобщив полученные данные в ковариационной матрице оценок параметров уравнения регрессии
Заметим, что в матрице (17) нумерация строк и столбцов начинается с нуля. Нулевые строка и столбец введены для учета свободного члена уравнения регрессии и соблюдения нумерации коэффициентов регрессии. Ковариация двух оценок параметров
Из формулы (18) следует, что ковариация оценки параметра с самой собой равна ее дисперсии:
В матричной форме ковариационную матрицу оценок параметров уравнения регрессии можно записать в виде
Преобразуем выражение (19) с учетом выражения (16): В полученном выражении случайным является только произведение
В выражении (20) сомножители, стоящие до математического ожидания, можно представить в виде
где Математическое ожидание
или
В силу условия Гаусса - Маркова о равенстве математического ожидания случайных остатков нулю (условие 1), а также постоянстве дисперсии случайных остатков (условие 2), получаем выражения
Согласно условию Гаусса - Маркова о независимости случайных остатков (условие 3) элементы матрицы (21), не стоящие на главной диагонали, равны нулю, т.е. матрица
где Вернувшись к рассмотрению ковариационной матрицы оценок параметров уравнения регрессии, получим выражение
Ha главной диагонали матрицы
где Таким образом, ковариационная матрица оценок параметров уравнения множественной регрессии будет иметь вид
а дисперсия оценки параметра
где Можно показать, что оценки параметров уравнения множественной регрессии Популярное:
|
Последнее изменение этой страницы: 2016-03-25; Просмотров: 1182; Нарушение авторского права страницы