Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Уравнение парной линейной регрессии
Пусть функционирование экономического объекта описывается двумя числовыми переменными: входной переменной X и выходной переменной Y. Возможно, что X может изменяться (регулироваться) исследователем, а значение Y получается как результат функционирования объекта. Предполагается, что Y зависит от X практически линейно: Y=mX+b+e, (1) где m и b – детерминированные величины, e – случайная величина. Выходная переменная Y называется зависимой переменной (или объясняемой переменной, или откликом). Входная переменная X называется независимой переменной (или объясняющей переменной, или фактором, или регрессором). Случайную величину e в эконометрике называют возмущением. Если математическое ожидание возмущения равно нулю, то функция f(x)= mx+b является условным математическим ожиданием Y при заданном значении X=x: f(x)≡ MxY. В этом случае соотношение (1) называется регрессионным уравнением. Чтобы подчеркнуть, что переменных всего две, а связь между ними линейная, говорят, что (1) – уравнение парной линейной регрессии. Функция f(x) называется регрессией (линейной) Y по X (или функцией регрессии), а величины m и b – параметрами линейной регрессии (m – коэффициентом, b – сдвигом). Пусть имеется n наблюдений величин X и Y: (x1, y1), (x2, y2), …, (xn, yn). Из соотношения (1) получаем: yi=mxi+b+ε i, где ε i – возмущение в i-ом наблюдении, i=1, …, n. Требуется по наблюдениям найти в некотором смысле наилучшие оценки и значений m и b. Если и получены, то оценку отклика по известному значению фактора x можно определить по формуле: . (2) Формулу (2) можно использовать для прогноза значения отклика по интересующему исследователя значению фактора. Оценивание параметров уравнения линейной регрессии Для получения оценок и традиционно используется метод наименьших квадратов (МНК). В соответствии с МНК значения и определяются из условия минимума остаточной суммы, которая равна сумме квадратов отклонений наблюдений отклика yi от оценок, полученных с помощью соотношения (2). Обозначим: – оценка отклика для i-го наблюдения, i=1, …, n; – отклонение наблюдения отклика от оценки; величины ei называются остатками; Qe – остаточная сумма. Графически определение остатков поясняется на рис. 1. Координатная плоскость, на которой нанесены точки наблюдений, называется полем корреляции. С учетом принятых обозначений остаточная сумма является суммой квадратов остатков и задается формулой: (3) Ясно, что чем меньше Qe, тем лучше оценки соответствуют наблюдениям. Из необходимого условия экстремума Qe (равенства частных производных по и нулю) можно получить формулы для оценок параметров уравнения линейной регрессии: , (4) . (5) В формулах (4) и (5) использованы обозначения: – выборочная ковариация переменных X и Y, – выборочная дисперсия переменной X, и – выборочные средние значения X и Y, соответственно. Определения перечисленных выше выборочных характеристик приводятся в Приложении. Вывод формул (4) и (5) дается, например, в [5]. Понятие тесноты связи Заметим, что сдвиг b нельзя считать объективной характеристикой зависимости Y от X, потому что его величина определяется выбором начала координат. Из соотношения (5), в частности, следует, что для МНК-оценок прямая, задаваемая уравнением (2), всегда проходит через точку ( ). Подставив (5) в (2), после несложных преобразований получим: . (6) Это соотношение связывает отклонения оценки отклика и фактора от их выборочных средних значений. Переход от величин к их отклонениям от среднего называется центрированием этих величин. Заметим, что значение в соотношении (6) не присутствует. На первый взгляд кажется, что по величине коэффициента можно судить о степени зависимости Y от X: чем больше , тем сильнее зависимость. Это не совсем так, потому что на величину влияет выбор единиц измерения X и Y. Для получения более объективной, чем , характеристики зависимости X и Y, следует найти связь между их нормированными значениями. Нормировку обычно проводят делением величины X (и, соответственно, Y) на ее выборочное среднее квадратичное отклонение sx (sy). Разделим обе части соотношения (6) на sy, а затем правую часть умножим и разделим на sx. Тогда получим: (7) где введено обозначение: Величина r называется выборочным коэффициентом корреляции (см. Приложение). Коэффициент r показывает, на сколько значений sy в среднем увеличится отклик, если фактор увеличится на sx. Говорят, что выборочный коэффициент корреляции характеризует тесноту связи между X и Y. Известно, что |r| ≤ 1. Чем ближе |r| к 1, тем теснее связь между X и Y; чем ближе |r| к 0, тем слабее связь. При r=±1 точки наблюдений лежат на прямой, задаваемой соотношением (2). При r=0 прямая (2) параллельна оси абсцисс, и связь между X и Y отсутствует. Примеры тесной и слабой связи даны на рис.2. Популярное:
|
Последнее изменение этой страницы: 2016-08-31; Просмотров: 1010; Нарушение авторского права страницы