Предпосылки МНК. Нелинейная регрессия.

⇐ ПредыдущаяСтр 34 из 51Следующая ⇒

При оценке параметров уравнения регрессии применяется метод наименьших квадратов (МНК). Строится модель линейной регрессии , где а, b - выборочные оценки параметров и . Оценки параметров регрессии должны отвечать определенным критериям. Они должны быть несмещенными состоятельными и эффективными.

Несмещенность оценки означает, что математическое ожидание остатков (разность фактических и теоретических значений результативного признака y, равное ) равно нулю. Следовательно, при большом числе выборочных оцениваний остатки не будут накапливаться и найденный параметр регрессии можно рассматривать как среднее значение из возможного большого количества несмещенных оценок. Несмещенность оценок является желательным свойством, т.к. только в этом случае они могут иметь практическую значимость. Если оценки обладают свойством несмещенности, то их можно сравнивать по разным исследованиям.

Для практических целей важна не только несмещенность, но и эффективность оценок. Оценки считаются эффективными, если они характеризуются наименьшей дисперсией. Поэтому несмещенность оценки должна дополняться минимальной дисперсией. В практических исследованиях это означает возможность перехода от точечного оценивания к интервальному.

Степень реалистичности доверительных интервалов параметров регрессии обеспечивается, если оценки будут не только несмещенными и эффективными, но и состоятельными. Состоятельность оценок характеризует увеличение их точности с увеличением объема выборки.

Условия, необходимые для получения несмещенных, состоятельных и эффективных оценок, представляют собой предпосылки МНК, соблюдение которых желательно для получения достоверных результатов регрессии.

Условия Гаусса-Маркова:

1. Случайный характер остатков, т.е. для любого наблюдения из выборки математическое ожидание случайной величины равно 0: .

С этой целью строится график зависимости остатков от теоретических значений результативного признака . Если на графике получена горизонтальная полоса, то остатки представляют собой случайные величины и МНК оправдан, теоретические значения хорошо аппроксимируют фактические значения .

Если условие не выполняется, необходимо либо применять другую функцию, либо вводить дополнительную информацию и заново строить уравнение регрессии до тех пор, пока остатки не будут случайными величинами.

2. Нулевая средняя величина остатков, не зависящая от .

Это означает, что .

Если в уравнение включен свободный член а, то условие выполняется автоматически: . По МНК ; ; тогда

Это выполнимо для линейных моделей и моделей, нелинейных относительно включаемых переменных. Для моделей, нелинейных по оцениваемым параметрам и приводимых к линейному виду логарифмированием, средняя ошибка равна нулю для логарифмов исходных данных. Так, для модели вида сумма .

Вместе с тем несмещенность оценок коэффициентов регрессии, полученных по МНК, зависит от независимости случайных остатков и величин x, что также исследуется в рамках соблюдения второй предпосылки МНК. С этой целью наряду с графиком зависимости остатков от теоретических значений результативного признака строится график зависимости случайных остатков от факторов , включенных в регрессию.

Если остатки на графике расположены в виде горизонтальной полосы, то они независимы от значений . Если же график показывает наличие зависимости, то модель неадекватна. Причины неадекватности могут быть разные. Возможно, что нарушена третья предпосылка МНК и дисперсия остатков не постоянна для каждого значения фактора . Может быть неправильна спецификация модели, и в нее необходимо ввести дополнительные члены от , например , или преобразовать значения . Скопление точек в определенных участках значений фактора говорит о наличии систематической погрешности модели.

3. В каждом наблюдении D(u)=const или для любого i: D(u_i)=const. Это условие гомоскедастичности. Гомоскедастичность – дисперсия каждого отклонения одинакова для всех значений x.

В соответствии с третьей предпосылкой МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора остатки имеют одинаковую дисперсию. Если это условие не соблюдается, то имеет место гетероскедастичность. Наличие гомоскедастичности или гетероскедастичности можно увидеть по графику зависимости остатков от теоретических значений результативного признака . Для множественной регрессии данный вид графиков является наиболее визуальным способом изучения гомо- и гетероскедастичности.

4. Отсутствие автокорреляции остатков. Значения остатков распределены независимо друг от друга (в любых двух наблюдениях значения случайного члена не зависят друг от друга).

Автокорреляция остатков означает наличие корреляции между остатками текущих и предыдущих (последующих) наблюдений. Математически это выражается в том, что случайные величины e_i в регрессионной модели не оказываются независимыми, в частности, условие не выполняется. Такие модели называются моделями с наличием автокорреляции.

Автокорреляция остатков может быть вызвана несколькими причинами.

· Иногда она связана с исходными данными и вызвана наличием ошибок измерения в значениях результативного признака.

· В ряде случаев причину автокорреляции остатков следует искать в формулировке модели. Модель может не включать фактор, оказывающий существенное воздействие на результат, влияние которого отражается в остатках, вследствие чего последние могут оказаться автокоррелированными.

От истинной автокорреляции остатков следует отличать ситуации, когда причина автокорреляции заключается в неправильной спецификации функциональной формы модели. В этом случае следует изменить форму связи факторных и результативного признаков, а не использовать специальные методы расчета параметров уравнения регрессии при наличии автокорреляции остатков.

Существует два наиболее распространенных метода определения автокорреляции остатков. Первый метод – это построение графика зависимости остатков от времени и визуальное определение наличия или отсутствия автокорреляции. Второй метод - использование критерия Дарбина-Уотсона.

Если автокорреляция отсутствует, то оценки состоятельные и эффективные.

5. Остатки подчиняются нормальному распределению: u~N(0, σ _u²).

Предпосылка о нормальном распределении остатков позволяет проводить проверку параметров регрессии и корреляции с помощью критериев t, F. Вместе с тем оценки регрессии, найденные с применением МНК, обладают хорошими свойствами даже при отсутствии нормального распределения остатков, т.е. при нарушении пятой предпосылки МНК.

Дальше было докозательство (удалила) оставила какую то хрень, не знаю нужно ли это.

Рассмотрим D(a) и D(b). (без вывода).

D(a) и D(b) 0, т.е. а и b – эффективные и состоятельные оценки. Чем больше , тем менее точны оценки. Чем больше , тем точнее оценка.

Чтобы получить более точные оценки, можно: увеличить объем выборки, снизить дисперсию случайного члена: , увеличить дисперсию .

Так как на практике величина неизвестна, то вместо нее используется ее несмещенная оценка: , где - дисперсия остатков (смещенная оценка).

n-2 – число степеней свободы для выборки объема n при оценке параметров α и β .

Тогда .

Теорема Гаусса-Маркова: если для остаточного члена модели парной линейной регрессии выполняются условия (1)-(4) Гаусса-Маркова, тогда оценки а и b уравнения регрессии , полученные по МНК, будут наилучшими, эффективными, несмещенными оценками параметров α и β, т.е. наиболее эффективными в классе всех несмещенных оценок).

При несоблюдении основных предпосылок МНК приходиться корректировать модель, изменяя ее спецификацию, добавлять (исключать) некоторые факторы, преобразовывать исходные данные для того, чтобы получить оценки коэффициентов регрессии, которые обладают свойством несмещенности, имеют меньшее значение дисперсий остатков и обеспечивают в связи с этим более эффективную статистическую проверку значимости параметров регрессии.

Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций.

Различают два класса нелинейных регрессий:

- регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам. Примерами могут быть:

- квадратическая зависимость;

- гиперболическая зависимость.

- регрессии, нелинейные по оцениваемым параметрам. Примерами могут быть:

Первый вид регрессии приводим к линейному виду путем замены переменных: . Тогда .

. Тогда .

Чтобы привести уравнение (степенная зависимость) к линейному виду, необходимо прологарифмировать обе части уравнения.

Определим новые переменные и параметр α:

. - постоянный относительный темп прироста.

Таким образом, уравнение примет вид: .

В уравнении β – это коэффициент эластичности: по определению коэффициент эластичности y по х:

Так как оценки параметров, а также построение доверительного интервала, расчет коэффициента детерминации и т.д. проводятся по уравнению: , то для случайного члена должны выполняться условия Г-М, в частности u должно быть нормальной случайной величиной: u~N(0, σ _u²). Тогда v должно быть логарифмически нормальной случайной величиной. В частности, условие 1 Г-М: М(u)=0, значит М(v)=1.

Рассмотрим экспоненциальную зависимость: . Если данная зависимость используется для анализа временных рядов (т.е. х=τ (время)), тогда β =r. Модель принимает вид: . Величина r – постоянный относительный темп прироста y за единицу времени.

Приведем уравнение к линейному виду:

, где .

Оценки параметров уравнения:

⇐ Предыдущая 29 30 31 32 333435 36 37 38 Следующая ⇒