Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Метод наименьших квадратов (МНК)



Рассмотрим задачу «наилучшей» аппроксимации набора наблюдений , линейным уравнением

где и – оценки параметров и в модели парной регресии

Пусть имеем n наблюдений

і х у
... n х1 х2 ... хn у1 у2 ... уn

По этим данным можно построить оцененное уравнение регрессии

По этому уравнению вычислим , .

Величина является расчетным значением переменной , соответствующее .

Наблюдаемые значения не может в точности на линии регрессии, так как не совпадают с .

Остаток в –м наблюдении определяется как разность между фактическим и расчетным значениями зависимой переменной, т.е. .

Расположение линии регрессии, задаваемой уравнением определяется параметрами и .

 
Приведем диаграмму рассеяния наблюдений и линии регрессии (рисунок 4.2).

 

.. .
.
.

 

Рисунок 4.2

 

Неизвестные значения определяются методом наименьших квадратов.

Суть МНК заключается в минимализации суммы квадратов остатков

где – известные значения наблюдения (числа);

– неизвестные.

Это квадратичная функция. Необходимые условия экстремума функции заключается в равенстве нулю частных производных по и :

В развернутом виде эти уравнения запишутся в виде:

 

 

Или

, .

Решение этой системы с двумя неизвестными и :

Расчетное значение зависимой переменной или линия регрессии имеет уравнение или .

Линия регрессии проходит через точку и выполняются равенства

.

Коэффициент есть угловой коэффициент регрессии, т.е. показатель наклона линии линейной регрессиии. Он показывает, на сколько единиц в среднем изменяется переменная у при увеличении независимой переменной на единицу.

Постоянная дает прогнозируемое значение зависимой переменной при .

Это может иметь смысл в зависимости от того, как далеко находится от выборочных значений .

После построения уравнения регрессии наблюдаемые значения у можно представить как .

Остатки , как и ошибки являются случайными величинами. Однако они в отличии от ошибок наблюдаемы.

Докажем, что

Доказано, так как , ;

,

Выборочные дисперсии вычисляются по формулам:

- дисперсия наблюдаемых значений у.

- дисперсия «расчетных» значений у.

- дисперсия остатков.

 

Задание 4.1

Докажите, что , где коэффициент корреляции между

– их стандартные отклонения.

 

4.3 Качество оценки: Коэффициент детерминации

Цель регрессионного анализа состоит в объяснении поведения зависимой переменной .

Пусть на основе выборочных наблюдений построено уравнение регрессии .

Значение зависимой переменной в каждом наблюдении можно разложить на две составляющие , , где остаток есть та часть зависимой переменной , которую невозможно объяснить с помощью уравнения регрессии.

Разброс значений зависимой переменной характеризуется выборочной дисперсией . Разложим :

Так как , то .

Замечание. Такое разложение дисперсии верно лишь в том случае, когда константа а включена в уравенение регрессии.

Итак, дисперсия разложена на две части:

– часть, которая объясняется регрессионным уравнением,

– необъясненная часть.

Разделим правую и левую часть равенства на :

,

TSS=ESS+RSS.

Получим .

Коэффициентом детерминации называется отношение

,

Коэффициентом детерминации и характеризует долю дисперсии (вариации или разброса) зависимой переменной, объясненную с помощью уравнения регрессии.

Максимальное значение .

Это происходит в случае, когда все точки наблюдения лежат на регрессионной прямой (подгонка точная), т.е. и остатки для всех .

Тогда . Если , то регрессия ничего не дает, т.е. .

Это значит, что переменная не улучшает качества предсказания по сравнению с горизонтальной прямой (рисунок 4.5).

 
 


 

 

 
 


Рисунок 4.5

Чем ближе к единице , тем лучше качество подгонки, т.е. более точно аппроксимирует .

Замечание. Вычисление корректно, если константа а включена в уравнение регрессии.

Напомню, что выборочные дисперсии и :

дисперсия наблюдаемых значений .

дисперсия расчетных значений

- дисперсия остатков.

Пример 4.1Изучается зависимость себестоимости единицы изделия (у, тыс. руб.) от величины выпуска продукции (х, тыс. шт.) по группам предприятий за отчетный период. Экономист обследовал n = 5 предприятий и получил следующие результаты (1-й и 2-й столбцы). Полагая, что между переменными х, у имеет место линейная зависимость, определим выборочное уравнение линейной регрессии. Заполним таблицу

Номер х у х2 х*у
1.9 3.8
1.7 5.1
1.8 7.2
1.6 8.0
1.4 8.4
n = 5
Сред нее

 

Уравнение линейной регрессии имеет вид:

Найдем остатки и коэффициент детерминации.

Решение: Заполним таблицу

Но мер х y y2 =2.12- -0.11x
1, 9 3, 61 1, 90 0, 00 0, 22 0, 22 0, 0484 0.0484
1, 7 2, 89 1, 79 -0, 09 0, 02 0, 11 0, 0004 0.0121 0.0081
1, 8 3, 24 1, 68 0, 12 0, 12 0, 0144 0.0144
1, 6 2, 56 1, 57 0, 03 -0, 08 -0, 11 0, 0064 0.0121 0.0009
1, 4 1, 96 1, 46 -0, 06 -0, 28 -0, 22 0, 0784 0.0484 0.0036
Сумма 8, 4 14, 26   0, 148 0.121 0.027
Сред ние       0, 0296=var(y) 0.0242= var( ) 0.0054=var( )

var(y)= ; var( )= ; var( )=

Проверим: Var(y)=var( )+var( ); 0.0296=0.0242+0.0054

0.0296=0.0296, отсюда R2=

Т.е. 81, 7 % общей вариации себестоимости у зависит от выпуска продукции х. Наша модель не объясняет 18, 3 % вариации себестоимости. Эта часть вариации объясняется факторами, не включенными в модель.

Пример 4.2. Показать, что , где - коэффициент корреляции между и .

Решение:

Тогда

Пример 4.3. Показать, что в случае парной регрессии ,

Решение:

В случае парной регрессии коэффициент детерминации есть квадрат коэффициента переменных и .

Пример 4.4 Показать, что в модели регрессии без свободного члена , оценка МНК для есть

Решение:

Выборочная регрессия для данной модели .

Наблюдаемые значения зависимой переменной связаны с расчетными значениями уравнением .

Оценку найдем из минимизации величины

Найдем

Т.к.

Отсюда

Вычисление при отсутствии свободного члена некорректно.

Пример 4.5.Показать, что в модели регрессии

Оценка для есть

Решение:

Выборочная регрессия для заданной модели есть наблюдаемые значения зависимой переменной связаны с расчетными значениями уравнением

Оценку а найдем из минимизации величины

Найдем

Т.к.

Итак, выборочная регрессия .

 

Контрольные вопросы:

1.Какой общий вид имеет модель парной линейной регрессии?

2.Перечислите основные причины существования случайного члена в модели парной линейной регрессии.

3.Какой метод используют для проведения регрессионного анализа?

4.В чем суть задачи регрессионного анализа?

5.Какое значение может принимать коэффициент детерминации и почему?

 


Поделиться:



Последнее изменение этой страницы: 2017-03-17; Просмотров: 103; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.053 с.)
Главная | Случайная страница | Обратная связь