Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Регрессия по методу наименьших квадратов.
Допустим, что имеется четыре наблюдения, для x и y, представленные на рис. 1, и поставлена задача, – определить значения a и b в управлении (1). В качестве грубой аппроксимации можно сделать это, отложив четыре точки P и построив прямую, в наибольшей степени соответствующую этим точкам. Это сделано на рис. 2. Отрезок, отсекаемый на прямой по оси y, представляет собой оценку a и обозначен а, а угловой коэффициент прямой представляет собой оценку b и обозначен b. Построение линии регрессии на глаз является достаточно субъективным. Более того, это просто невозможно, если переменная y зависит не от одной, а от двух или более независимых переменных. Возникает вопрос о существовании способа достаточно точной оценки a и b алгебраическим путем. Первым шагом является определение остатка для каждого наблюдения. За исключением случаев чистого совпадения, построенная линия регрессии не пройдет точно ни через одну точку наблюдения. Например, на рис. 3 при x=x1 соответствующей ему точкой на линии регрессии будет R1 со значением y, которое обозначено вместо фактически наблюдаемого значения y1. Величина описывается как расчетное значение y, соответствующее x1. Разность между фактическим и расчетным значениями (y1- ), определяемая отрезком P1R1, описывается как остаток в первом наблюдении. Обозначим его e1. Соответственно, для других наблюдений остатки будут обозначены как e2, e3 и e4. Рис. 2. Прямая, построенная по точкам Рис. 3. Построенная по точкам линия регрессии, показывающая остатки. Очевидно, что требуется построить линию регрессии таким образом, чтобы эти остатки были минимальными. Очевидно также, что линия, строго соответствующая одним наблюдениям, не будет соответствовать другим, и наоборот. Необходимо выбрать какой-то критерий подбора, который будет одновременно учитывать величину всех остатков. Один из способов решения поставленной проблемы состоит в минимизации суммы квадратов остатков S. Для рис. 3 верно такое соотношение: S=e12+e22+e32+e42 (2) Величина S будет зависеть от выбора a и b, так как они определяют положение линии регрессии. В соответствие с этим критерием, чем меньше S, тем строже соответствие. Если S=0, то получено абсолютно точное соответствие, так как это означает, что все остатки равны нулю. В этом случае линия регрессии будет проходить через все точки, однако, вообще говоря, это не возможно из-за наличия случайного члена. При выполнении определенных условий метод наименьших квадратов дает несмещенные и эффективные оценки a и b. Детальное рассмотрение остатков. После построения линии регрессии рассмотрим более детально общее выражение для остатка в каждом наблюдении. Рис. 4. На рис. 4 линия регрессии =a+bx (3) построена по выборке наблюдений. Для того чтобы не загромождать график, показано только одно такое наблюдение: наблюдение i, представленное точкой P с координатами (xi, yi). Когда x=xi линия регрессии предсказывает значение y= , что соответствует точке R на графике, где =a+bxi (4) Используя условные обозначения, принятые на рис. 4, это уравнение можно переписать следующим образом: RT=ST+RS, (5) так как отрезок ST равен a, а отрезок RS равен bxi. Остаток PR – это разность между PT и RT: PR= PT- RT= PT- ST - RS (6) Используя обычную математическую запись, представим формулу (6) в следующем виде: ei=yi- = yi-a-bxi (7) Если в примере, показанном на графике, выбрать несколько большее значение a или несколько большее значение b, то прямая прошла бы ближе к P, и остаток ei был бы меньше. Однако это повлияло бы на остатки всех других наблюдений, и это необходимо учитывать. Минимизируя сумму квадратов остатков, необходимо найти некоторое равновесие между ними. Регрессия по методу наименьших квадратов с одной Независимой переменой. Рассмотрим случай, когда имеется n наблюдений двух переменных x и y. Предположим, что y зависит от x, и надо подобрать уравнение =a+bx (8) расчетное значение зависимой переменной и остаток ei для наблюдения i заданы уравнениями (4) и (7). Требуется выбрать a и b, чтобы минимизировать величину S: S=Sei2=e12+…+en2 (9) Заметим, что величина S минимальна, когда (10) и (11) Варианты выражения для b Так как (12) и (13) можно получить следующие значения для b: (14) . (15) Далее будет использоваться первоначальное определение . Вывод выражений для a и b Осуществим вывод выражений для a и b в соответствии с той же процедурой, которая использовалась ранее, и сравним общий вариант с примерами на каждом этапе. Выразим квадрат i-го остатка через a и b и наблюдения значений через x и y: ei2=(yi- )2=(yi-a-bxi)2=yi2+a2+b2xi2-2ayi+2abxi-2bxiyi. (16) Суммируя по всем n наблюдениям, запишем S в виде: S=Syi2+na2+b2Sxi2-2aSyi+2abSxi-2bSxiyi. (17) Заметим, что данное выражение для S является квадратичной формой по a и b, и ее коэффициенты определяются выборочными значениями x и y. Можно влиять на величину S, только задавая значения a и b. Значения x и y, которые определяют положение точек на диаграмме расстояния, уже не могут быть изменены после того, как взята определенная выборка. Условия первого порядка для минимума, то есть и , принимают вид: . (18) . (19) Эти уравнения известны как нормальные уравнения для коэффициентов регрессии. Уравнение (18) позволяет выразить a через и пока неизвестное b. Подставим вместо Sxi, получим: . (20) Следовательно, . (21) Подставив выражение для a в уравнение (2.33) и помня, что Sxi равно , имеем: (22) После деления на 2n и перегруппировки получим: (23) С учетом формул (12) и (13) это выражение можно переписать в следующем виде: (24) и, таким, мы получим уравнение (10). Найдя из этого выражения b, выразим затем a из уравнения (11). Качество оценки: коэффициент R2 Цель регрессионного анализа состоит в объяснении поведения зависимой переменной y. В любой данной выборке y оказывается сравнительно низким в одних наблюдениях и сравнительно высоким в других. Разброс значений y в любой выборке можно суммарно описать с помощью выборочной дисперсии Var(y). После построения уравнения регрессии можно разбить значение yi в каждом наблюдении на две составляющих ‑ и ei: (25) Величина ‑ расчетное значение y в наблюдении i. Остаток ei есть расхождение между фактическим и спрогнозированным значениями величины y. Используя (25), разложим дисперсию y: (26) Так как должна быть равна нулю, получим: (27) Согласно (27), коэффициент детерминации , (28) что равносильно . (29) Максимальное значение коэффициента R2 равно единице. Это происходит в том случае, когда линия регрессии точно соответствует всем наблюдениям, так что для всех i и все остатки равны нулю. Тогда , Var(e)=0 и R2=1. Если в выборке отсутствует видимая связь между y и x, то коэффициент R2 будет близок к нулю. При прочих равных условиях желательно, чтобы коэффициент R2 был как можно больше. Альтернативное представление коэффициента R2 Очевидно, что чем больше соответствие, обеспечиваемое уравнением регрессии, тем больше должен быть коэффициент корреляции для фактических и прогнозных значений y, и наоборот. Покажем, что R2 фактически равен квадрату такого коэффициента корреляции между y и , который обозначается : (30) Экспериментальная часть В качестве примера рассмотрим данные из расчетной работы № 1. Рассчитаем коэффициенты регрессии с одной независимой переменной по методу наименьших квадратов. Результаты расчета приведены в таблице1. Таблица 1.
Суммируя по всем n наблюдениям, запишем S в виде: S = 13307716, 16 + 25a2 + b2 × 380281200, 64 - 2a× 17694, 2 +2ab× 19500, 8 - 2b× 14664884, 21 Условия первого порядка для минимума принимают вид: = 50× a - 35388, 4 + 39001, 6× b = 0; = 760562401, 28× b+39001, 6× a-29329768, 42 = 0 Решив полученную систему нормальных уравнений для коэффициентов регрессии, найдем: а = 0, 19378; b = 0, 907109. Оценим коэффициенты регрессии с использованием формул для расчета ковариации двух случайных величин и выборочной дисперсии. Результаты расчета приведены в таблице 2. Таблица 2
Так как Cov (х, y) = 34513, 68 и Var(x) = 38047, 99, то Расмотрим интерпретацию уравнения регрессии. Истинная модель описывается выражением y =a+bx+u. Оценена регрессия = 0, 19378+0, 907109× x. Полученный результат можно истолковать следующим образом. Коэффициент при x показывает, что если x увеличивается на 1 единицу, то y возрастает на 0, 907109 единиц. Предположив, что x и y измеряются в тысячах долларов, коэффициент наклона показывает, что если личный располагаемый доход увеличивается на 1 тыс. долл., то совокупные личные расходы возрастают на 0, 907109 тыс. долл. Постоянная в уравнении показывает прогнозируемый уровень y, когда x=0. Т.о. в случае, когда личный располагаемый доход равен нулю, совокупные личные расходы равны 0, 19378 тыс. долл. Однако подобная буквальная интерпретация может привести к неверным результатам, т.к. x=0 находится достаточно далеко от выборочных значений x. Экстраполяция влево может нарушить точность линии регрессии. Для полученной регрессионной зависимости проверим качество оценки с использованием коэффициента детерминации R2. Результаты расчетов приведены в табл.3.
Следовательно = = 0, 99791454 = 0, 998956726 Прокомментируем полученный результат. Цель регрессионного анализа состоит в объяснении поведения зависимой переменной y. Для определения качества такой оценки служит коэффициент детерминации R2. Максимальное значение коэффициента R2 равно единице. Мы заинтересованы в таком выборе коэффициентов a и b, чтобы максимизировать R2. В нашем случае R2= 0, 99791454, что близко максимальному значению, следовательно можно говорить о том, что в выборке присутствует видимая связь между y и x. Коэффициент корреляции ry, y=0, 998956726, что также говорит о достаточно хорошем качестве выбранной модели. Задание на расчетную работу 1. Провести регрессию по методу наименьших квадратов: Ø Рассчитать и оценить коэффициенты регрессии (используя МНК и Cov(x, y) и Var(x)). Ø Построить регрессионную зависимость и дать экономическую интерпретацию. 2. Проверить качество оценки с использованием коэффициента детерминации, используя формулы
Прокомментировать полученный результат При выполнении данной расчетной работы рекомендуется использовать пакет прикладных программ Microsoft Excel. Содержание отчета Отчет должен содержать: - титульный лист; - задание; - постановку задачи; - результаты выполнения задания; - выводы с экономической трактовкой. 5. Контрольные вопросы 1. Запишите простейшую модель (уравнение) регрессии. 2. В чем состоит регрессия по методу наименьших квадратов? 3. Объясните пример регрессии по методу наименьших квадратов с двумя наблюдениями. 4. Запишите нормальные уравнения для коэффициентов регрессии. 5. Назовите два этапа интерпретации уравнения регрессии и опишите их. 6. В чём состоит цель регрессионного анализа? 7. В каком случае значение коэффициента R2 равно единице?
Практическая работа №3 ОЦЕНКА КОЭФФИЦИЕНТОВ РЕГРЕССИИ МЕТОДОМ МОНТЕ-КАРЛО Цель практической работы Цель: освоение методики проверки метода наименьших квадратов методом Монте-Карло; оценивание точности прогнозируемых коэффициентов регрессии; вычисление для них доверительных интервалов. |
Последнее изменение этой страницы: 2017-04-13; Просмотров: 1580; Нарушение авторского права страницы