Обычный метод наименьших квадратов(линейная регрессия)

Обычный метод наименьших квадратов(линейная регрессия)

Зависимая переменная: Matr[Price]

Количество наблюдений: 120

Переменная Коэффициент Станд. ошибка t-статистика Знач.

1 Константа 23762.334462 4652.807399 5.1070960873 [0.0000]

2 Matr[Nkonk] -187.05115956 17.249994758 -10.843548777 [0.0000]

3 Matr[Smetro] -144.56210334 10.34312186 -13.976641221 [0.0000]

4 Matr[Speople] 43.796724132 5.4568522963 8.0260050581 [0.0000]

5 Matr[Sprice] -0.1879270195 0.2455502604 -0.7653301574 [0.4457]

6 Matr[Set] -321.16528908 75.365030326 -4.2614630114 [0.0000]

R^2adj. = 66.517158625% DW = 2.2584

R^2 = 67.924000699% S.E. = 388.23568822

Сумма квадратов остатков: 17182872.255439

Максимум логарифмической функции правдоподобия: -882.588538210276

AIC = 14.80980897 BIC = 14.949183557

F(5, 114) = 48.28118 [0.0000]

Нормальность: Chi^2(2) = 4.083252 [0.1298]

Гетероскедастичность: Chi^2(1) = 1.733966 [0.1879]

Функциональная форма: Chi^2(1) = 15.48755 [0.0001]

AR(1) в ошибке: Chi^2(1) = 2.22078 [0.1362]

ARCH(1) в ошибке: Chi^2(1) = 1.797448 [0.1800]

Проведем проверку значимости отдельных коэффициентов. РДУЗ напротив всех факторов, за исключением средней цены в ближайших 5 магазинах, «достаточно мал» (составляет менее любого из стандартных приемлемых уровней допустимой вероятности ошибки первого уровня — 0.1, 0.05 и даже 0.01). Про цену в ближайших конкурирующих магазинах делаем вывод ее не значимости (гипотеза о равенстве нулю коэффициентов при этом факторе не может быть отвергнута).

Значения коэффициентов при переменных (при значимых факторах) говорят о направлении и силе их влияния. Согласно форме уравнения (линейная регрессия) мы можем сделать предварительное заключение, что, например, чем больше конкурентов находится поблизости от данного магазина, тем ниже изучаемая цена на товар (в среднем — приблизительно минус 187, 05 руб. за каждого дополнительного соседнего конкурента), тогда как большее число рядом проживающих жителей и близость к метро положительно сказываются на цене (на каждую тысячу человек, проживающих недалеко от магазина, цена на товар становится выше в среднем на 43, 8 руб., а в магазинах, располагающихся ближе к метро — выше приблизительно на 144, 56 руб. на каждые 100 метров). Если магазин принадлежит к крупной сети, цена на товар в среднем приблизительно на 321, 17 руб. ниже, чем в несетевых магазинах. Подобных выводов о влиянии цены в конкурирующих соседних магазинах мы сделать не можем, т.к. влияние этого фактора признано не значимым.

R² (коэффициент детерминации) равен 67, 924%, то есть не менее 67, 924% вариации результирующего признака Y объясняется вариацией регрессоров.

Нормированный R-квадрат (66, 517%) – скорректированный коэффициент детерминации.

Сумма квадратов остатков (это RSS, необходимый для построения ряда статистики в классических критериях проверки гипотез об оценках) = 17182872, 255.

Рассмотрим результат проверки на нормальность остатков в модели. Основная гипотеза состоит в том, что остатки действительно являются реализацией нормально распределенной случайной величины, РДУЗ составил около 0.13 т.е. гипотезу отвергнуть не удается (стандартным уровнем допустимой вероятности ошибки первого рода в таком критерии можно считать 0.05, что ниже достигнутой значимости). Таким образом, можно сделать вывод, что остатки можно признать нормально распределенными.

Аналогично делаем вывод о том, что определить гетероскедастичность в модели не удалось, однако форму модели нельзя считать линейной.

Вывод об отсутствии гетероскедастичности — предварительный; имеет смысл провести дополнительные тесты, в особенности, если есть обоснованные содержательные «подозрения», что гетероскедастичность остатков может иметь место.

Что касается линейной формы модели, то этот результат также предварительный. Чтобы выяснить, какие факторы нелинейно влияют на зависимую переменную, необходимо провести дополнительные тесты.

Фактическое значение F-критерия, равное 48, 28 свидетельствует о статистической значимости уравнения регрессии в целом. F -статистика имеет (5, 114) степеней свободы (по количеству факторов и количеству наблюдений – количество факторов – 1). Нулевая гипотеза о совместной незначимости факторов в уравнении в данном случае отвергается, т.к. РДУЗ слишком мал (не отличим от 0 при округлении до 4 знаков после десятичной точки, это меньше любого разумного критического уровня значимости).

Результат анализа эффектов второго порядка:

Эффекты второго порядка

Константа

2: Matr[Nkonk]

3: Matr[Smetro]

4: Matr[Speople]

5: Matr[Sprice]

6: Matr[Set]

Регресоры t-статистика Значимость

3 3 -5.451174679 [0.0000]

2 3 1.1618403816 [0.2477]

4 4 -0.8932717305 [0.3736]

4 5 -0.6262468605 [0.5324]

5 6 -0.6111066739 [0.5424]

3 6 0.5309989472 [0.5965]

4 6 0.4681896898 [0.6406]

2 5 -0.4467727821 [0.6559]

2 6 0.3179381492 [0.7511]

2 4 0.2582637194 [0.7967]

3 5 -0.197415144 [0.8439]

2 2 0.1867833073 [0.8522]

3 4 0.0508996455 [0.9595]

5 5 -0.0339338937 [0.9730]

6 6 *-**-* [*-**-*]

1 6 *-**-* [*-**-*]

1 2 *-**-* [*-**-*]

1 1 *-**-* [*-**-*]

1 3 *-**-* [*-**-*]

1 5 *-**-* [*-**-*]

1 4 *-**-* [*-**-*]

При оценке значимости эффектов второго порядка допускаем вероятность ошибки первого рода 0, 05, поэтому значимыми эффектами второго порядка стоит признать квадрат расстояния до метро.

Этот результат развивает предварительный вывод о нелинейности формы модели. Именно этот фактор (квадрат расстояния до метро) необходимо будет ввести в модель для устранения ошибки нелинейной формы.

Главное изменение в модели, которое необходимо произвести по итогам вышеприведённого анализа, — это изменение списка регрессоров. Исключим незначимый фактор из модели (средняя цена в ближайших 5 магазинах), добавим значимые эффекты второго порядка (квадрат расстояния до метро).

Обычный метод наименьших квадратов

(линейная регрессия)

Зависимая переменная: Matr[Price]

Количество наблюдений: 120

Переменная Коэффициент Станд. ошибка t-статистика Знач.

1 Константа 19070.934466 249.27716027 76.504941109 [0.0000]

2 Matr[Nkonk] -159.20482843 16.173467713 -9.8435803167 [0.0000]

3 Matr[Smetro] 79.303850122 41.793068235 1.8975359664 [0.0603]

4 Matr[Speople] 41.486434055 4.8673124968 8.5234786307 [0.0000]

5 Matr[Set] -296.57892348 66.871441834 -4.4350609968 [0.0000]

6 Matr[Smetro]*Matr[Smetro]

-9.826146024 1.7901714105 -5.4889414311 [0.0000]

R^2adj. = 73.380307055% DW = 2.1728

R^2 = 74.498781549% S.E. = 346.16712657

Сумма квадратов остатков: 13660811.4651438

Максимум логарифмической функции правдоподобия: -868.825628306758

AIC = 14.580427138 BIC = 14.719801726

F(5, 114) = 66.60749 [0.0000]

Нормальность: Chi^2(2) = 1.68908 [0.4298]

Гетероскедастичность: Chi^2(1) = 5.320606 [0.0211]

Функциональная форма: Chi^2(1) = 3.176224 [0.0747]

AR(1) в ошибке: Chi^2(1) = 1.181462 [0.2771]

ARCH(1) в ошибке: Chi^2(1) = 14.2266 [0.0002]

Значимость факторов Nkonk (количество конкурирующих магазинов), Speople (количество людей, проживающих " недалеко от магазина" ) и Set (сеть) можно проверить критерием t-Стьюдента. Данные факторы значимы, их влияние осталось по сути прежним, немного изменились числовые значения.

Фактор Smetro (расстояние до метро) участвует в формировании эффектов второго порядка. Необходимо применить критерий проверки значимости части факторов в уравнении. Необходимо проверить на значимость группу факторов: расстояние до метро и квадрат расстояния до метро.

F(2, 114) = 137.7443 [0.0000]

Нулевая гипотеза состоит в существенности ограничений (одновременное равенство нулю коэффициентов при выбранных переменных), небольшое значение РДУЗ говорит, что гипотезу следует отвергнуть, т.е. данная группа факторов значима и не может быть исключена.

В этой модели значимы все факторы, остатки признаются нормальными и форма уравнения признается верной (вероятность ошибки первого рода равна 0, 05).

В данной модели остатки являются гетероскедастичными (это, однако, предстоит уточнить в дальнейшем). Далее повторяем шаги: добавляем значимы эффекты второго порядка и удаляем незначимые группы фаторов.

Эффекты второго порядка

Константа

2: Matr[Nkonk]

3: Matr[Smetro]

4: Matr[Speople]

5: Matr[Set]

6: Matr[Smetro]*Matr[Smetro]

Регресоры t-статистика Значимость

3 4 2.7591544048 [0.0068]

4 6 2.728169238 [0.0074]

2 2 1.4483207675 [0.1503]

2 4 -1.3078946907 [0.1936]

3 5 -0.9786869138 [0.3298]

2 3 -0.9260440814 [0.3564]

5 6 -0.878530465 [0.3815]

2 6 -0.8443139925 [0.4003]

2 5 0.672463127 [0.5027]

4 4 -0.596372129 [0.5521]

3 6 -0.3221674211 [0.7479]

6 6 -0.2308839829 [0.8178]

4 5 -0.0108569134 [0.9914]

1 6 *-**-* [*-**-*]

5 5 *-**-* [*-**-*]

1 3 *-**-* [*-**-*]

1 2 *-**-* [*-**-*]

1 1 *-**-* [*-**-*]

1 5 *-**-* [*-**-*]

1 4 *-**-* [*-**-*]

3 3 *-**-* [*-**-*]

Добавляем значимые эффекты второго порядка:

Обычный метод наименьших квадратов

(линейная регрессия)

Зависимая переменная: Matr[Price]

Количество наблюдений: 120

Переменная Коэффициент Станд. ошибка t-статистика Знач.

1 Константа 19146.026381 340.44774947 56.237782187 [0.0000]

2 Matr[Nkonk] -160.21926906 15.850185557 -10.108352895 [0.0000]

3 Matr[Smetro] 106.76737574 63.144042104 1.69085431 [0.0937]

4 Matr[Speople] -5.4634395201 45.513025183 -0.1200412299 [0.9047]

5 Matr[Set] -275.57406765 65.747586723 -4.1913944129 [0.0001]

6 Matr[Smetro]*Matr[Smetro]

-12.326650396 2.8773163369 -4.2840789656 [0.0000]

7 Matr[Smetro]*Matr[Speople]

3.1921383924 7.9018295008 0.4039745975 [0.6870]

8 Matr[Smetro]*Matr[Smetro]*Matr[Speople]

0.0234426429 0.3288673386 0.0712829771 [0.9433]

R^2adj. = 74.616311341% DW = 2.1629

R^2 = 76.109469497% S.E. = 338.03499939

Сумма квадратов остатков: 12797978.011328

Максимум логарифмической функции правдоподобия: -864.910984330435

AIC = 14.548516406 BIC = 14.734349188

F(7, 112) = 50.97214 [0.0000]

Нормальность: Chi^2(2) = 2.016642 [0.3648]

Гетероскедастичность: Chi^2(1) = 4.328597 [0.0375]

Функциональная форма: Chi^2(1) = 1.169747 [0.2795]

AR(1) в ошибке: Chi^2(1) = 1.225391 [0.2683]

ARCH(1) в ошибке: Chi^2(1) = 10.17648 [0.0014]

Обычный метод наименьших квадратов

(линейная регрессия)

Зависимая переменная: Matr[Price]

Количество наблюдений: 120

Переменная Коэффициент Станд. ошибка t-статистика Знач.

1 Константа 19162.82435 244.62479281 78.335577233 [0.0000]

2 Matr[Nkonk] -160.3103075 15.728944346 -10.192057647 [0.0000]

3 Matr[Smetro] 103.3900909 41.558399567 2.4878265761 [0.0143]

4 Matr[Speople] -8.4187143042 18.695871763 -0.4502980343 [0.6534]

5 Matr[Set] -275.55975539 65.457201288 -4.2097698949 [0.0001]

6 Matr[Smetro]*Matr[Smetro]

-12.17557864 1.9375413706 -6.2840354406 [0.0000]

7 Matr[Smetro]*Matr[Speople]

3.7469487232 1.3580061763 2.7591544048 [0.0068]

R^2adj. = 74.839804327% DW = 2.1643

R^2 = 76.108385622% S.E. = 336.54357941

Сумма квадратов остатков: 12798558.6353442

Максимум логарифмической функции правдоподобия: -864.913706373768

AIC = 14.531895106 BIC = 14.694498791

F(6, 113) = 59.99488 [0.0000]

Нормальность: Chi^2(2) = 2.061221 [0.3568]

Гетероскедастичность: Chi^2(1) = 4.307596 [0.0379]

Функциональная форма: Chi^2(1) = 1.042931 [0.3071]

AR(1) в ошибке: Chi^2(1) = 1.241329 [0.2652]

ARCH(1) в ошибке: Chi^2(1) = 10.30988 [0.0013]

Эффекты второго порядка

Константа

2: Matr[Nkonk]

3: Matr[Smetro]

4: Matr[Speople]

5: Matr[Set]

6: Matr[Smetro]*Matr[Smetro]

7: Matr[Smetro]*Matr[Speople]

Регресоры t-статистика Значимость

7 7 -2.4362910892 [0.0164]

4 7 -2.3822591044 [0.0189]

4 4 -2.2013101449 [0.0298]

3 5 -1.1678384189 [0.2454]

5 6 -1.1169858055 [0.2664]

2 2 0.9645676373 [0.3368]

4 5 0.7993032862 [0.4258]

5 7 0.6279248175 [0.5313]

2 3 -0.5074478773 [0.6128]

2 6 -0.4898946051 [0.6252]

6 6 0.4673815189 [0.6411]

2 7 -0.451862991 [0.6522]

2 5 0.4031889494 [0.6876]

3 6 0.3811601906 [0.7038]

6 7 0.3052774518 [0.7607]

2 4 -0.1147675739 [0.9088]

4 6 0.0712829771 [0.9433]

3 7 0.0712829771 [0.9433]

3 4 *-**-* [*-**-*]

1 1 *-**-* [*-**-*]

1 2 *-**-* [*-**-*]

1 7 *-**-* [*-**-*]

3 3 *-**-* [*-**-*]

1 6 *-**-* [*-**-*]

5 5 *-**-* [*-**-*]

1 4 *-**-* [*-**-*]

1 3 *-**-* [*-**-*]

1 5 *-**-* [*-**-*]

Обычный метод наименьших квадратов

(линейная регрессия)

Зависимая переменная: Matr[Price]

Количество наблюдений: 120

Сумма квадратов остатков: 12103075.120769

Обычный метод наименьших квадратов

(линейная регрессия)

Зависимая переменная: Matr[Price]

Количество наблюдений: 120

Обычный метод наименьших квадратов(линейная регрессия)

Зависимая переменная: Matr[Price]

Количество наблюдений: 120