Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Регрессия по методу наименьших квадратов.



Допустим, что имеется четыре наблюдения, для x и y, представленные на рис. 1, и поставлена задача, – определить значения a и b в управлении (1). В качестве грубой аппроксимации можно сделать это, отложив четыре точки P и построив прямую, в наибольшей степени соответствующую этим точкам. Это сделано на рис. 2. Отрезок, отсекаемый на прямой по оси y, представляет собой оценку a и обозначен а, а угловой коэффициент прямой представляет собой оценку b и обозначен b.

Построение линии регрессии на глаз является достаточно субъективным. Более того, это просто невозможно, если переменная y зависит не от одной, а от двух или более независимых переменных. Возникает вопрос о существовании способа достаточно точной оценки a и b алгебраическим путем.

Первым шагом является определение остатка для каждого наблюдения. За исключением случаев чистого совпадения, построенная линия регрессии не пройдет точно ни через одну точку наблюдения. Например, на рис. 3 при x=x1 соответствующей ему точкой на линии регрессии будет R1 со значением y, которое обозначено вместо фактически наблюдаемого значения y1. Величина описывается как расчетное значение y, соответствующее x1. Разность между фактическим и расчетным значениями (y1- ), определяемая отрезком P1R1, описывается как остаток в первом наблюдении. Обозначим его e1. Соответственно, для других наблюдений остатки будут обозначены как e2, e3 и e4.

Рис. 2. Прямая, построенная по точкам

Рис. 3. Построенная по точкам линия регрессии, показывающая остатки.

Очевидно, что требуется построить линию регрессии таким образом, чтобы эти остатки были минимальными. Очевидно также, что линия, строго соответствующая одним наблюдениям, не будет соответствовать другим, и наоборот. Необходимо выбрать какой-то критерий подбора, который будет одновременно учитывать величину всех остатков.

Один из способов решения поставленной проблемы состоит в минимизации суммы квадратов остатков S. Для рис. 3 верно такое соотношение:

S=e12+e22+e32+e42 (2)

Величина S будет зависеть от выбора a и b, так как они определяют положение линии регрессии. В соответствие с этим критерием, чем меньше S, тем строже соответствие. Если S=0, то получено абсолютно точное соответствие, так как это означает, что все остатки равны нулю. В этом случае линия регрессии будет проходить через все точки, однако, вообще говоря, это не возможно из-за наличия случайного члена.

При выполнении определенных условий метод наименьших квадратов дает несмещенные и эффективные оценки a и b.

Детальное рассмотрение остатков.

После построения линии регрессии рассмотрим более детально общее выражение для остатка в каждом наблюдении.

Рис. 4.

На рис. 4 линия регрессии

=a+bx (3)

построена по выборке наблюдений. Для того чтобы не загромождать график, показано только одно такое наблюдение: наблюдение i, представленное точкой P с координатами (xi, yi).

Когда x=xi линия регрессии предсказывает значение y= , что соответствует точке R на графике, где

=a+bxi (4)

Используя условные обозначения, принятые на рис. 4, это уравнение можно переписать следующим образом:

RT=ST+RS, (5)

так как отрезок ST равен a, а отрезок RS равен bxi.

Остаток PR – это разность между PT и RT:

PR= PT- RT= PT- ST - RS (6)

Используя обычную математическую запись, представим формулу (6) в следующем виде:

ei=yi- = yi-a-bxi (7)

Если в примере, показанном на графике, выбрать несколько большее значение a или несколько большее значение b, то прямая прошла бы ближе к P, и остаток ei был бы меньше. Однако это повлияло бы на остатки всех других наблюдений, и это необходимо учитывать. Минимизируя сумму квадратов остатков, необходимо найти некоторое равновесие между ними.

Регрессия по методу наименьших квадратов с одной

Независимой переменой.

Рассмотрим случай, когда имеется n наблюдений двух переменных x и y. Предположим, что y зависит от x, и надо подобрать уравнение

=a+bx (8)

расчетное значение зависимой переменной и остаток ei для наблюдения i заданы уравнениями (4) и (7). Требуется выбрать a и b, чтобы минимизировать величину S:

S=Sei2=e12+…+en2 (9)

Заметим, что величина S минимальна, когда

(10)

и (11)

Варианты выражения для b

Так как

(12)

и (13)

можно получить следующие значения для b:

(14)

. (15)

Далее будет использоваться первоначальное определение

.

Вывод выражений для a и b

Осуществим вывод выражений для a и b в соответствии с той же процедурой, которая использовалась ранее, и сравним общий вариант с примерами на каждом этапе. Выразим квадрат i-го остатка через a и b и наблюдения значений через x и y:

ei2=(yi- )2=(yi-a-bxi)2=yi2+a2+b2xi2-2ayi+2abxi-2bxiyi. (16)

Суммируя по всем n наблюдениям, запишем S в виде:

S=Syi2+na2+b2Sxi2-2aSyi+2abSxi-2bSxiyi. (17)

Заметим, что данное выражение для S является квадратичной формой по a и b, и ее коэффициенты определяются выборочными значениями x и y. Можно влиять на величину S, только задавая значения a и b. Значения x и y, которые определяют положение точек на диаграмме расстояния, уже не могут быть изменены после того, как взята определенная выборка.

Условия первого порядка для минимума, то есть и , принимают вид:

. (18)

. (19)

Эти уравнения известны как нормальные уравнения для коэффициентов регрессии. Уравнение (18) позволяет выразить a через и пока неизвестное b. Подставим вместо Sxi, получим:

. (20)

Следовательно,

. (21)

Подставив выражение для a в уравнение (2.33) и помня, что Sxi равно , имеем:

(22)

После деления на 2n и перегруппировки получим:

(23)

С учетом формул (12) и (13) это выражение можно переписать в следующем виде:

(24)

и, таким, мы получим уравнение (10). Найдя из этого выражения b, выразим затем a из уравнения (11).

Качество оценки: коэффициент R2

Цель регрессионного анализа состоит в объяснении поведения зависимой переменной y. В любой данной выборке y оказывается сравнительно низким в одних наблюдениях и сравнительно высоким в других. Разброс значений y в любой выборке можно суммарно описать с помощью выборочной дисперсии Var(y).

После построения уравнения регрессии можно разбить значение yi в каждом наблюдении на две составляющих ‑ и ei:

(25)

Величина ‑ расчетное значение y в наблюдении i. Остаток ei есть расхождение между фактическим и спрогнозированным значениями величины y.

Используя (25), разложим дисперсию y:

(26)

Так как должна быть равна нулю, получим:

(27)

Согласно (27), коэффициент детерминации

, (28)

что равносильно

. (29)

Максимальное значение коэффициента R2 равно единице. Это происходит в том случае, когда линия регрессии точно соответствует всем наблюдениям, так что для всех i и все остатки равны нулю. Тогда , Var(e)=0 и R2=1.

Если в выборке отсутствует видимая связь между y и x, то коэффициент R2 будет близок к нулю.

При прочих равных условиях желательно, чтобы коэффициент R2 был как можно больше.

Альтернативное представление коэффициента R2

Очевидно, что чем больше соответствие, обеспечиваемое уравнением регрессии, тем больше должен быть коэффициент корреляции для фактических и прогнозных значений y, и наоборот. Покажем, что R2 фактически равен квадрату такого коэффициента корреляции между y и , который обозначается :

(30)

Экспериментальная часть

В качестве примера рассмотрим данные из расчетной работы № 1. Рассчитаем коэффициенты регрессии с одной независимой переменной по методу наименьших квадратов. Результаты расчета приведены в таблице1.

Таблица 1.

x y e e2
479, 7 440, 4 a+479, 7b 440, 4-a-479, 7b 193952, 16+a2+b2× 230112, 09-2a× 440, 4+2ab× 479, 7-2b× 211259, 88
489, 7 a+489, 7b 452-a-489, 7b 204304+a2+b2× 239806, 09-2a× 452+2ab× 489, 7-2b× 221344, 4
503, 8 461, 4 a+503, 8b 461, 4-a-503, 8b 212889, 96+a2+b2× 253814, 44-2a× 461, 4+2ab× 503, 8-2b× 232453, 32
524, 9 a+524, 9b 482-a-524, 9b 232324+a2+b2× 275520, 01-2a× 482+2ab× 524, 9-2b× 253001, 8
542, 3 500, 5 a+542, 3b 500, 5-a-542, 3b 250500, 25+a2+b2× 294089, 29-2a× 500, 5+2ab× 542, 3-2b× 271421, 15
580, 8 a+580, 8b 528-a-580, 8b 278784+a2+b2× 337328, 64-2a× 528+2ab× 580, 8-2b× 306662, 4
616, 3 557, 5 a+616, 3b 557, 5-a-616, 3b 310806, 25+a2+b2× 379825, 69-2a× 557, 5+2ab× 616, 3-2b× 343587, 25
646, 8 585, 7 a+646, 8b 585, 7-a-646, 8b 343044, 49+a2+b2× 418350, 24-2a× 585, 7+2ab× 646, 8-2b× 378830, 76
673, 5 602, 7 a+673, 5b 602, 7-a-673, 5b 363247, 29+a2+b2× 453602, 25-2a× 602, 7+2ab× 673, 5-2b× 405918, 45
701, 3 634, 4 a+701, 3b 634, 4-a-701, 3b 402463, 36+a2+b2× 491821, 69-2a× 634, 4+2ab× 701, 3-2b× 444904, 72
722, 5 657, 9 a+722, 5b 657, 9-a-722, 5b 432832, 41+a2+b2× 522006, 25-2a× 657, 9+2ab× 722, 5-2b× 475332, 75
751, 6 672, 1 a+751, 6b 672, 1-a-751, 6b 451718, 41+a2+b2× 564902, 56-2a× 672, 1+2ab× 751, 6-2b× 505150, 36
779, 2 696, 8 a+779, 2b 696, 8-a-779, 2b 485530, 24+a2+b2× 607152, 64-2a× 696, 8+2ab× 779, 2-2b× 542946, 56
810, 3 737, 1 a+810, 3b 737, 1-a-810, 3b 543316, 41+a2+b2× 656586, 09-2a× 737, 1+2ab× 810, 3-2b× 597272, 13
865, 3 768, 5 a+865, 3b 768, 5-a-865, 3b 590592, 25+a2+b2× 748744, 09-2a× 768, 5+2ab× 865, 3-2b× 664983, 05
858, 4 763, 6 a+858, 4b 763, 6-a-858, 4b 583084, 96+a2+b2× 736850, 56-2a× 763, 6+2ab× 858, 4-2b× 655474, 24
875, 8 780, 2 a+875, 8b 780, 2-a-875, 8b 608712, 04+a2+b2× 767025, 64-2a× 780, 2+2ab× 875, 8-2b× 683299, 16
906, 8 823, 1 a+906, 8b 823, 1-a-906, 8b 677493, 61+a2+b2× 822286, 24-2a× 823, 1+2ab× 906, 8-2b× 746387, 08
942, 9 864, 3 a+942, 9b 864, 3-a-942, 9b 747014, 49+a2+b2× 889060, 41-2a× 864, 3+2ab× 942, 9-2b× 814948, 47
988, 8 903, 2 a+988, 8b 903, 2-a-988, 8b 815770, 24+a2+b2× 977725, 44-2a× 903, 2+2ab× 988, 8-2b× 893084, 16
1015, 5 927, 6 a+1015, 5b 927, 6-a-1015, 5b 860441, 76+a2+b2× 1031240, 25-2a× 927, 6+2ab× 1015, 5-2b× 941977, 8
1021, 6 931, 8 a+1021, 6b 931, 8-a-1021, 6b 868251, 24+a2+b2× 1043666, 56-2a× 931, 8+2ab× 1021, 6-2b× 951926, 88
1049, 3 950, 9 a+1049, 3b 950, 9-a-1049, 3b 904210, 81+a2+b2× 1101030, 49-2a× 950, 9+2ab× 1049, 3-2b× 997779, 37
1058, 3 963, 3 a+1058, 3b 963, 3-a-1058, 3b 927946, 89+a2+b2× 1119998, 89-2a× 963, 3+2ab× 1058, 3-2b× 1019460, 39
1095, 4 1009, 2 a+1095, 4b 1009, 2-a-1095, 4b 1018484, 64+a2+b2× 1199901, 16-2a× 1009, 2+2ab× 1095, 4-2b× 1105477, 68

 

Суммируя по всем n наблюдениям, запишем S в виде:

S = 13307716, 16 + 25a2 + b2 × 380281200, 64 - 2a× 17694, 2 +2ab× 19500, 8 - 2b× 14664884, 21

Условия первого порядка для минимума принимают вид:

= 50× a - 35388, 4 + 39001, 6× b = 0;

= 760562401, 28× b+39001, 6× a-29329768, 42 = 0

Решив полученную систему нормальных уравнений для коэффициентов регрессии, найдем:

а = 0, 19378;

b = 0, 907109.

Оценим коэффициенты регрессии с использованием формул для расчета ковариации двух случайных величин и выборочной дисперсии.

Результаты расчета приведены в таблице 2.

Таблица 2

№ п/п x y
479, 7 440, 4 -300, 332 -267, 368 80299, 16618 90199, 31022
489, 7 -290, 332 -255, 768 74257, 63498 84292, 67022
503, 8 461, 4 -276, 232 -246, 368 68054, 72538 76304, 11782
524, 9 -255, 132 -225, 768 57600, 64138 65092, 33742
542, 3 500, 5 -237, 732 -207, 268 49274, 23618 56516, 50382
580, 8 -199, 232 -179, 768 35815, 53818 39693, 38982
616, 3 557, 5 -163, 732 -150, 268 24603, 68018 26808, 16782
646, 8 585, 7 -133, 232 -122, 068 16263, 36378 17750, 76582
673, 5 602, 7 -106, 532 -105, 068 11193, 10418 11349, 06702
701, 3 634, 4 -78, 732 -73, 368 5776, 409376 6198, 727824
722, 5 657, 9 -57, 532 -49, 868 2869, 005776 3309, 931024
751, 6 672, 1 -28, 432 -35, 668 1014, 112576 808, 378624
779, 2 696, 8 -0, 832 -10, 968 9, 125376 0, 692224
810, 3 737, 1 30, 268 29, 332 887, 820976 916, 151824
865, 3 768, 5 85, 268 60, 732 5178, 496176 7270, 631824
858, 4 763, 6 78, 368 55, 832 4375, 442176 6141, 543424
875, 8 780, 2 95, 768 72, 432 6936, 667776 9171, 509824
906, 8 823, 1 126, 768 115, 332 14620, 40698 16070, 12582
942, 9 864, 3 162, 868 156, 532 25494, 05378 26525, 98542
988, 8 903, 2 208, 768 195, 432 40799, 94778 43584, 07782
1015, 5 927, 6 235, 468 219, 832 51763, 40138 55445, 17902
1021, 6 931, 8 241, 568 224, 032 54118, 96218 58355, 09862
1049, 3 950, 9 269, 268 243, 132 65467, 66738 72505, 25582
1058, 3 963, 3 278, 268 255, 532 71106, 37858 77433, 07982
1095, 4 1009, 2 315, 368 301, 432 95062, 00698 99456, 97542
Сумма 19500, 8 17694, 2     862841, 9956 951199, 6744
Среднее 780, 032 707, 768     34513, 67982 38047, 98698

 

Так как Cov (х, y) = 34513, 68 и Var(x) = 38047, 99, то


Представим графическую модель полученной регрессионной зависимости = 0, 19378+0, 907109× x:

Расмотрим интерпретацию уравнения регрессии. Истинная модель описывается выражением y =a+bx+u.

Оценена регрессия = 0, 19378+0, 907109× x.

Полученный результат можно истолковать следующим образом. Коэффициент при x показывает, что если x увеличивается на 1 единицу, то y возрастает на 0, 907109 единиц. Предположив, что x и y измеряются в тысячах долларов, коэффициент наклона показывает, что если личный располагаемый доход увеличивается на 1 тыс. долл., то совокупные личные расходы возрастают на 0, 907109 тыс. долл.

Постоянная в уравнении показывает прогнозируемый уровень y, когда x=0. Т.о. в случае, когда личный располагаемый доход равен нулю, совокупные личные расходы равны 0, 19378 тыс. долл. Однако подобная буквальная интерпретация может привести к неверным результатам, т.к. x=0 находится достаточно далеко от выборочных значений x. Экстраполяция влево может нарушить точность линии регрессии.

Для полученной регрессионной зависимости проверим качество оценки с использованием коэффициента детерминации R2. Результаты расчетов приведены в табл.3.

№ п/п x y e
479, 7 440, 4 435, 3340735 5, 065926542 25, 66361173 71485, 64742 74220, 24433
489, 7 444, 4051657 7, 594834333 57, 68150854 65417, 26982 69359, 98251
503, 8 461, 4 457, 1954057 4, 204594318 10, 2827952 60697, 19142 62786, 62502
524, 9 476, 3354102 5, 664589756 21, 76813157 50971, 18982 53561, 0436
542, 3 500, 5 492, 1191107 8, 380889312 70, 23930565 42960, 02382 46504, 44346
580, 8 527, 0428157 0, 957184306 0, 916201795 32316, 53382 32661, 59224
616, 3 557, 5 559, 245193 -1, 745193038 3, 045698739 22580, 47182 22059, 02419
646, 8 585, 7 586, 9120243 -1, 212024276 1, 469002846 14900, 59662 14606, 16687
673, 5 602, 7 611, 1318405 -8, 431840475 71, 0959338 11039, 28462 9338, 547328
701, 3 634, 4 636, 3494768 -1, 949476817 3, 800459861 5382, 863424 5100, 605454
722, 5 657, 9 655, 5801923 2, 319807699 5, 38150776 2486, 817424 2723, 567272
751, 6 672, 1 681, 9770706 -9, 87707063 97, 55652424 1272, 206224 665, 1720378
779, 2 696, 8 707, 0132851 -10, 21328513 104, 3111931 120, 297024 0, 569594538
810, 3 737, 1 735, 2243819 1, 875618101 3, 51794326 860, 366224 753, 852907
865, 3 768, 5 785, 1153891 -16, 61538905 276, 0711533 3688, 375824 5982, 618593
858, 4 763, 6 778, 8563354 -15, 25633543 232, 7557706 3117, 212224 5053, 551434
875, 8 780, 2 794, 6400359 -14, 44003587 208, 5146359 5246, 394624 7546, 750616
906, 8 823, 1 822, 7604217 0, 33957828 0, 115313408 13301, 47022 13223, 25705
942, 9 864, 3 855, 5070646 8, 792935405 77, 31571303 24502, 26702 21826, 83121
988, 8 903, 2 897, 1433778 6, 056622164 36, 68267203 38193, 66662 35863, 03373
1015, 5 927, 6 921, 363194 6, 236805965 38, 89774864 48326, 10822 45622, 90692
1021, 6 931, 8 926, 8965603 4, 903439717 24, 04372106 50190, 33702 48017, 32593
1049, 3 950, 9 952, 0234857 -1, 123485703 1, 262220125 59113, 16942 59660, 7423
1058, 3 963, 3 960, 1874687 3, 112531308 9, 687851146 65296, 60302 63715, 58817
1095, 4 1009, 2 993, 8412208 15, 35877921 235, 8920989 90861, 25062 81837, 88765
Сумма 19500, 8 17694, 2 17694, 2 -2, 21689E-12 1617, 968716 784327, 6144 782691, 9304
Среднее 780, 032 707, 768 707, 768 -8, 86757E-14   31373, 10458 31307, 67722

Следовательно = = 0, 99791454

= 0, 998956726

Прокомментируем полученный результат. Цель регрессионного анализа состоит в объяснении поведения зависимой переменной y. Для определения качества такой оценки служит коэффициент детерминации R2. Максимальное значение коэффициента R2 равно единице. Мы заинтересованы в таком выборе коэффициентов a и b, чтобы максимизировать R2. В нашем случае R2= 0, 99791454, что близко максимальному значению, следовательно можно говорить о том, что в выборке присутствует видимая связь между y и x. Коэффициент корреляции ry, y=0, 998956726, что также говорит о достаточно хорошем качестве выбранной модели.

Задание на расчетную работу

1. Провести регрессию по методу наименьших квадратов:

Ø Рассчитать и оценить коэффициенты регрессии (используя МНК и Cov(x, y) и Var(x)).

Ø Построить регрессионную зависимость и дать экономическую интерпретацию.

2. Проверить качество оценки с использованием коэффициента детерминации, используя формулы

Прокомментировать полученный результат

При выполнении данной расчетной работы рекомендуется использовать пакет прикладных программ Microsoft Excel.

Содержание отчета

Отчет должен содержать:

- титульный лист;

- задание;

- постановку задачи;

- результаты выполнения задания;

- выводы с экономической трактовкой.

5. Контрольные вопросы

1. Запишите простейшую модель (уравнение) регрессии.

2. В чем состоит регрессия по методу наименьших квадратов?

3. Объясните пример регрессии по методу наименьших квадратов с двумя наблюдениями.

4. Запишите нормальные уравнения для коэффициентов регрессии.

5. Назовите два этапа интерпретации уравнения регрессии и опишите их.

6. В чём состоит цель регрессионного анализа?

7. В каком случае значение коэффициента R2 равно единице?

 


Практическая работа №3

ОЦЕНКА КОЭФФИЦИЕНТОВ РЕГРЕССИИ МЕТОДОМ МОНТЕ-КАРЛО

Цель практической работы

Цель: освоение методики проверки метода наименьших квадратов методом Монте-Карло; оценивание точности прогнозируемых коэффициентов регрессии; вычисление для них доверительных интервалов.


Поделиться:



Последнее изменение этой страницы: 2017-04-13; Просмотров: 1580; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.072 с.)
Главная | Случайная страница | Обратная связь