Метод наименьших квадратов (МНК)

Рассмотрим задачу «наилучшей» аппроксимации набора наблюдений , линейным уравнением

где и – оценки параметров и в модели парной регресии

Пусть имеем n наблюдений

і	х	у
... n	х₁ х₂ ... х_n	у₁ у₂ ... у_n

По этим данным можно построить оцененное уравнение регрессии

По этому уравнению вычислим , .

Величина является расчетным значением переменной , соответствующее .

Наблюдаемые значения не может в точности на линии регрессии, так как не совпадают с .

Остаток в –м наблюдении определяется как разность между фактическим и расчетным значениями зависимой переменной, т.е. .

Расположение линии регрессии, задаваемой уравнением определяется параметрами и .

Приведем диаграмму рассеяния наблюдений и линии регрессии (рисунок 4.2).

.. .

Рисунок 4.2

Неизвестные значения определяются методом наименьших квадратов.

Суть МНК заключается в минимализации суммы квадратов остатков

где – известные значения наблюдения (числа);

– неизвестные.

Это квадратичная функция. Необходимые условия экстремума функции заключается в равенстве нулю частных производных по и :

В развернутом виде эти уравнения запишутся в виде:

Или

, .

Решение этой системы с двумя неизвестными и :

Расчетное значение зависимой переменной или линия регрессии имеет уравнение или .

Линия регрессии проходит через точку и выполняются равенства

Коэффициент есть угловой коэффициент регрессии, т.е. показатель наклона линии линейной регрессиии. Он показывает, на сколько единиц в среднем изменяется переменная у при увеличении независимой переменной на единицу.

Постоянная дает прогнозируемое значение зависимой переменной при .

Это может иметь смысл в зависимости от того, как далеко находится от выборочных значений .

После построения уравнения регрессии наблюдаемые значения у можно представить как .

Остатки , как и ошибки являются случайными величинами. Однако они в отличии от ошибок наблюдаемы.

Докажем, что

Доказано, так как , ;

Выборочные дисперсии вычисляются по формулам:

- дисперсия наблюдаемых значений у.

- дисперсия «расчетных» значений у.

- дисперсия остатков.

Задание 4.1

Докажите, что , где коэффициент корреляции между

– их стандартные отклонения.

4.3 Качество оценки: Коэффициент детерминации

Цель регрессионного анализа состоит в объяснении поведения зависимой переменной .

Пусть на основе выборочных наблюдений построено уравнение регрессии .

Значение зависимой переменной в каждом наблюдении можно разложить на две составляющие , , где остаток есть та часть зависимой переменной , которую невозможно объяснить с помощью уравнения регрессии.

Разброс значений зависимой переменной характеризуется выборочной дисперсией . Разложим :

Так как , то .

Замечание. Такое разложение дисперсии верно лишь в том случае, когда константа а включена в уравенение регрессии.

Итак, дисперсия разложена на две части:

– часть, которая объясняется регрессионным уравнением,

– необъясненная часть.

Разделим правую и левую часть равенства на :

TSS=ESS+RSS.

Получим .

Коэффициентом детерминации называется отношение

Коэффициентом детерминации и характеризует долю дисперсии (вариации или разброса) зависимой переменной, объясненную с помощью уравнения регрессии.

Максимальное значение .

Это происходит в случае, когда все точки наблюдения лежат на регрессионной прямой (подгонка точная), т.е. и остатки для всех .

Тогда . Если , то регрессия ничего не дает, т.е. .

Это значит, что переменная не улучшает качества предсказания по сравнению с горизонтальной прямой (рисунок 4.5).

Рисунок 4.5

Чем ближе к единице , тем лучше качество подгонки, т.е. более точно аппроксимирует .

Замечание. Вычисление корректно, если константа а включена в уравнение регрессии.

Напомню, что выборочные дисперсии и :

дисперсия наблюдаемых значений .

дисперсия расчетных значений

- дисперсия остатков.

Пример 4.1Изучается зависимость себестоимости единицы изделия (у, тыс. руб.) от величины выпуска продукции (х, тыс. шт.) по группам предприятий за отчетный период. Экономист обследовал n = 5 предприятий и получил следующие результаты (1-й и 2-й столбцы). Полагая, что между переменными х, у имеет место линейная зависимость, определим выборочное уравнение линейной регрессии. Заполним таблицу

Номер	х	у	х²	х*у
		1.9		3.8
		1.7		5.1
		1.8		7.2
		1.6		8.0
		1.4		8.4
n = 5
Сред нее

Уравнение линейной регрессии имеет вид:

Найдем остатки и коэффициент детерминации.

Решение: Заполним таблицу

Но мер	х	y	y²	=2.12- -0.11x
		1, 9	3, 61	1, 90	0, 00	0, 22	0, 22	0, 0484	0.0484
		1, 7	2, 89	1, 79	-0, 09	0, 02	0, 11	0, 0004	0.0121	0.0081
		1, 8	3, 24	1, 68	0, 12	0, 12		0, 0144		0.0144
		1, 6	2, 56	1, 57	0, 03	-0, 08	-0, 11	0, 0064	0.0121	0.0009
		1, 4	1, 96	1, 46	-0, 06	-0, 28	-0, 22	0, 0784	0.0484	0.0036
Сумма		8, 4	14, 26					0, 148	0.121	0.027
Сред ние								0, 0296=var(y)	0.0242= var( )	0.0054=var( )

var(y)= ; var( )= ; var( )=

Проверим: Var(y)=var( )+var( ); 0.0296=0.0242+0.0054

0.0296=0.0296, отсюда R²=

Т.е. 81, 7 % общей вариации себестоимости у зависит от выпуска продукции х. Наша модель не объясняет 18, 3 % вариации себестоимости. Эта часть вариации объясняется факторами, не включенными в модель.

Пример 4.2. Показать, что , где - коэффициент корреляции между и .