Уравнение парной линейной регрессии

Пусть функционирование экономического объекта описывается двумя числовыми переменными: входной переменной X и выходной переменной Y. Возможно, что X может изменяться (регулироваться) исследователем, а значение Y получается как результат функционирования объекта.

Предполагается, что Y зависит от X практически линейно:

Y=mX+b+e, (1)

где m и b – детерминированные величины, e – случайная величина.

Выходная переменная Y называется зависимой переменной (или объясняемой переменной, или откликом). Входная переменная X называется независимой переменной (или объясняющей переменной, или фактором, или регрессором). Случайную величину e в эконометрике называют возмущением.

Если математическое ожидание возмущения равно нулю, то функция

f(x)= mx+b

является условным математическим ожиданием Y при заданном значении X=x: f(x)≡ M_xY. В этом случае соотношение (1) называется регрессионным уравнением. Чтобы подчеркнуть, что переменных всего две, а связь между ними линейная, говорят, что (1) – уравнение парной линейной регрессии. Функция f(x) называется регрессией (линейной) Y по X (или функцией регрессии), а величины m и b – параметрами линейной регрессии (m – коэффициентом, b – сдвигом).

Пусть имеется n наблюдений величин X и Y: (x₁, y₁), (x₂, y₂), …, (x_n, y_n). Из соотношения (1) получаем: y_i=mx_i+b+ε _i, где ε _i – возмущение в i-ом наблюдении, i=1, …, n.

Требуется по наблюдениям найти в некотором смысле наилучшие оценки и значений m и b. Если и получены, то оценку отклика по известному значению фактора x можно определить по формуле:

. (2)

Формулу (2) можно использовать для прогноза значения отклика по интересующему исследователя значению фактора.

Оценивание параметров уравнения линейной регрессии

Для получения оценок и традиционно используется метод наименьших квадратов (МНК). В соответствии с МНК значения и определяются из условия минимума остаточной суммы, которая равна сумме квадратов отклонений наблюдений отклика y_i от оценок, полученных с помощью соотношения (2).

Обозначим: – оценка отклика для i-го наблюдения, i=1, …, n; – отклонение наблюдения отклика от оценки; величины e_i называются остатками; Q_e – остаточная сумма.

Графически определение остатков поясняется на рис. 1. Координатная плоскость, на которой нанесены точки наблюдений, называется полем корреляции.

С учетом принятых обозначений остаточная сумма является суммой квадратов остатков и задается формулой:

(3)

Ясно, что чем меньше Q_e, тем лучше оценки соответствуют наблюдениям. Из необходимого условия экстремума Q_e (равенства частных производных по и нулю) можно получить формулы для оценок параметров уравнения линейной регрессии:

, (4)

. (5)

В формулах (4) и (5) использованы обозначения: – выборочная ковариация переменных X и Y, – выборочная дисперсия переменной X, и – выборочные средние значения X и Y, соответственно.

Определения перечисленных выше выборочных характеристик приводятся в Приложении. Вывод формул (4) и (5) дается, например, в [5].

Понятие тесноты связи

Заметим, что сдвиг b нельзя считать объективной характеристикой зависимости Y от X, потому что его величина определяется выбором начала координат. Из соотношения (5), в частности, следует, что для МНК-оценок прямая, задаваемая уравнением (2), всегда проходит через точку ( ). Подставив (5) в (2), после несложных преобразований получим:

. (6)

Это соотношение связывает отклонения оценки отклика и фактора от их выборочных средних значений. Переход от величин к их отклонениям от среднего называется центрированием этих величин. Заметим, что значение в соотношении (6) не присутствует.

На первый взгляд кажется, что по величине коэффициента можно судить о степени зависимости Y от X: чем больше , тем сильнее зависимость. Это не совсем так, потому что на величину влияет выбор единиц измерения X и Y. Для получения более объективной, чем , характеристики зависимости X и Y, следует найти связь между их нормированными значениями. Нормировку обычно проводят делением величины X (и, соответственно, Y) на ее выборочное среднее квадратичное отклонение s_x (s_y). Разделим обе части соотношения (6) на s_y, а затем правую часть умножим и разделим на s_x. Тогда получим:

(7)

где введено обозначение:

Величина r называется выборочным коэффициентом корреляции (см. Приложение). Коэффициент r показывает, на сколько значений s_y в среднем увеличится отклик, если фактор увеличится на s_x. Говорят, что выборочный коэффициент корреляции характеризует тесноту связи между X и Y.

Известно, что |r| ≤ 1. Чем ближе |r| к 1, тем теснее связь между X и Y; чем ближе |r| к 0, тем слабее связь. При r=±1 точки наблюдений лежат на прямой, задаваемой соотношением (2). При r=0 прямая (2) параллельна оси абсцисс, и связь между X и Y отсутствует. Примеры тесной и слабой связи даны на рис.2.

Предыдущая 123 4 5 6 7 8 9 10 11 Следующая