Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Регрессионный анализ. Этапы моделирования.



Главная задача, которая решается с помощью регрессионного анализа – создание математических моделей экономических объектов или процессов на основе наблюдаемых (статистических) значений экономических показателей. Задача регрессионного анализа ставится следующим образом. Пусть есть два экономических показателя X и Y, характеризующих экономический объект. Показатель Y – называется объясняемым (выходным или эндогенным), показатель X – объясняющим (входным, фактором или экзогенным).

Для оценки точности модели (5.3) используется ряд критериев, в которых применяются так называемые статистики или статистические характеристики:

1) коэффициент корреляции, 2) коэффициент детерминации,

3) стандартная ошибка регрессии, 4) доверительные интервалы для коэффициентов  регрессии, 5) доверительные интервалы для прогнозных

значений, 6) усредненный коэффициент эластичности.

Рассмотрим каждый из этих критериев более подробно.

1. Коэффициент корреляции rxy используется для оценки тесноты связи между показателями X и Y:


 

r xy


n   

cov( X , Y ) ∑ ( X i  X )(Y i  −  Y )

= , cov( X , Y ) =  i = 1 ,


σ  xσ  y n

n n   


 

(5.13)


∑ ( X i


X ) 2


∑ (Y i


−  Y ) 2


σ  x  =


 i = 1 , σ =

n y


 i = 1 .

n


 

 


Известно, что


r xy


≤  1. Чем ближе


r xy


к 1, тем сильнее статистическая


связь между X и Y. Если rxy = 0, связь между Х и Y отсутствует. Если


r xy > 0, то


имеется положительная корреляция, т.е. при возрастании X статистически


возрастает Y; если


r xy  < 0, то отрицательная – при возрастании Х показатель Y


статистически убывает.

Считается, что если


 

 

r xy


> 0, 7, то связь между показателями X и Y высокая


и можно строить простую регрессию, если


 

r xy


< 0, 4, то связь между


показателями слабая и вместо Х необходимо выбрать другой фактор для построения простой регрессии показателя Y или увеличить количество наблюдений.

2. Значимость вычисленного значения r xy определяется с помощью

t-критерия Стьюдента: t набл =

2

r
xy

xy
1 − r  2

(n − 2). (5.14)

Вычисленное значение tнабл обычно сравнивается с критическим

(табличным) значением t-критерия Стьюдента tкр = tтабл (α, n – 2) при уровне значимости α = 0, 05 (или 0, 01) (уровни доверительной вероятности β = 1 – α

равны 0, 95 или 0, 99) и числе степеней свободы (n – 2).

Если tнабл > tкр, то полученное значение rxy считается значимым и принимается гипотеза о наличии статистической связи между показателями, иначе принимается гипотеза об отсутствии связи между показателями и надо выбрать другой показатель Х.

 

Обычно при α = 0, 3 принимают tкр = 1, 05 (70% доверительная вероятность); при α = 0, 05 – tкр = 1, 96 (95% доверительная вероятность); при

α = 0, 01 – t кр = 2, 65 (99% доверительная вероятность).

3. Коэффициент детерминации R 2 (R-квадрат) служит для оценки

степени соответствия модели фактическим данным:

n n ∧  


2
2
e i


∑ (Y i −  Y )


R 2  = 1 −  i = 1 =  i = 1 . (5.15)

n    n   


2
2
∑ (Y i  −  Y )


∑ (Y i −  Y )


i =1


i =1


n ∧   n   


Величина ∑ (Y i −  Y ) 2

i =1


называется вариацией регрессии, а ∑ (Y i −  Y ) 2 –

i =1


вариацией наблюдений относительно среднего.

Имеет место неравенство 0 < R 2 < 1. Коэффициент детерминации R 2

показывает, какую часть фактической вариации переменной Y составляет вариация регрессии.

Чем ближе R 2 к 1, тем точнее модель линейной регрессии, если R 2 > 0, 8,

то модель линейной регрессии считается точной, если R2 < 0, 5, то модель является неудовлетворительной, надо строить нелинейную регрессию или выбирать другой фактор Х.

4. Стандартная ошибка регрессии


n

∑ (Y t


t
−  Y ) 2


 

. (5.16)


SE =


t =1


n − 2


5. Проверка значимости простой линейной регрессии осуществляется по

F-критерию Фишера:

R 2 (n − 2)

F = . (5.17)

(1 − R 2 )

Если вычисленное значение F-критерия больше табличного при

заданном уровне значимости 0, 05 и числе степеней свободы (n – 2), то принимается гипотеза о наличии линейной регрессии между показателями X и

Y, иначе необходимо строить нелинейную регрессию или выбирать другой фактор Х.

6. Доверительные интервалы коэффициентов регрессии при заданном уровне значимости определяются по формулам:

Ea0 ⋅  t (α / 2, n − 2), а 0 +

SEa1 ⋅  t (α / 2, n − 2), а 1 +

SEa0 ⋅  t (α / 2, n − 2) ), (5.18)

SEa1 ⋅  t (α / 2, n − 2) ).

 

Стандартные ошибки коэффициентов равны

2 2


SEa =


X t  ∑ (Yt  Y ) , (5.19)


t
0 n(n − 2)∑ ( X


X ) 2


 


SEa =


∑ (Y t


−  Y ) 2

.


t
1 (n − 2)∑ ( X


X ) 2


 

7. Доверительный интервал для прогнозных значений Х*t регрессии определяется по формуле

∧ ∧


 

 

где


(Y t −  V t ,  Y t V t ),

* 2


(5.20)


V = SE ⋅  t (α  , n − 2)


1 + 1 +


( X t


X )


, (5.21)


t n n   


∑ ( X i


X ) 2


i =1

t (a, n − 2) − табличное значение критерия Стьюдента при заданном уровне

значимости α и числе степеней свободы (n – 2). Формулы (5.16), (5.19), (5.20)

применяются как для наблюдаемых, так и для прогнозных значений X и Y.

8. Усредненный коэффициент эластичности показывает влияние переменной Х на переменную Y и определяется по формуле

 

 


Э = a1


X  . (5.22)


Очевидно, что коэффициент эластичности показывает, на сколько процентов в среднем изменится Y при изменении X на 1%.

 

 

Ложная регрессия

Если наблюдаемые величины имеют тенденцию к росту или снижению с течением времени, то между ними возникает ложная регрессия (корреляция), которая может превысить причинную связь между ними. Такая проблема

возникает для цен и финансовых показателей, определяемых нарастающим итогом. Чтобы избежать ложной регрессии, обычно переходят к анализу индексов например (Р1 – Р0) / Р0, или Р1 / Р0, где Р0 базовое значение показателя Р.

 

 

Нелинейная регрессия

В случае если корреляционное поле показывает нелинейную связь между показателями, или когда (согласно F-критерия) отвергнута гипотеза о

линейной связи между X и Y, надо выбрать нелинейную регрессию.

Приведем примеры некоторых уравнений регрессии:

Y = a0 + a1X + a2X2 + a3X3 + … + anXn – полиномиальная регрессия,

Y = a 0 + a 1 Ln X – логарифмическая регрессия,

Y = aExp(bX) – экспоненциальная регрессия,

Y = aX b – степенная регрессия.

Полиномиальная регрессия выбирается, когда имеет место немонотонная зависимость между X и Y. Если на корреляционном поле есть только одна точка максимума или минимума, то выбирается квадратичная регрессия.

В случае квадратичной регрессии

 

 


2

Y = a0  + a1 X + a2 X


 

(5.23)


 

коэффициенты находятся методом наименьших квадратов и определяются по данным таблицы 1 из системы линейных уравнений:

 


a0 + a1 X + a2


X 2  = Y ,


1
0
2
a X + a X 2 + a


X 3  = XY ,


(5.24)


1
0
2
a X 2 + a X 3 + a


X 4  = X 2Y .


 

Если определитель системы (5.24) не равен нулю, то имеется единственное решение для коэффициентов квадратичной регрессии.

В других случаях нелинейной регрессии ее сводят к линейной с помощью замены переменных. Данная процедура состоит в следующем.

Пусть, исходя из экономических соображений или из вида корреляционного поля, выбрана степенная регрессионная модель:

 

Y = aXb. (5.25)

 

 

Логарифмируя (5.25), получим соотношение

 

 

Ln(Y) = Ln(a) + bLn(X). (5.26)

 

 


На основе наблюдаемых данных строится табл. 5.3.


 

Таблица 5.3


 

 

№п/п 1 2 3 …. N
Ln ( Х) Ln (Х1) Ln (Х2) Ln Х3) Ln (Хn)
Ln (Y) Ln (Y1) Ln Y2) Ln (Y3) Ln (Yn)

 

Делается замена переменных: V = Ln(Y), Z = Ln(X). По данным табл. 5.3 строится линейная регрессия V = a0 + a1Z = a0 + a1Ln(X). (5.27)

 

Сравнивая (23) с (24), получаем: a0 = Ln(a), a1 = b. Откуда нелинейная регрессия (5.22) будет иметь вид

Y = Exp(a0)Xa1. (5.28)

Этот же метод используется при построении других видов нелинейной регрессии.

В практических задачах обычно строится линейная и несколько

нелинейных моделей регрессии, а затем по максимальному коэффициенту детерминации R2 выбирается одна из них.

Полиномиальная регрессия не может быть сведена с помощью замены

переменных к линейной регрессии, поэтому для квадратичной модели надо пользоваться уравнениями (5.24).

Трендовые модели

Если Х = t – время, то уравнение регрессии называется уравнением тренда, а функция f(t) – функцией тренда, которая характеризует изменение показателя Y от времени. В этом случае наблюдаемые значения Y(t)

называются временным рядом.

В общем случае модель временного ряда показателя Y рассматривают как сумму трех компонент:

f(t) = f0(t) + f1(t) + f2(t), (5.29)

где f0(t) монотонная функция (монотонный тренд), f1(t) – сезонная компонента (с периодом один год), f2(t) – циклическая компонента с периодом несколько лет, t – месяц или квартал.

При анализе и прогнозировании временных рядов при  условии корреляции случайной компоненты Ut для разных моментов времени применяются другие методы анализа временных рядов.

В системе EXEL функция «Анализ данных» позволяет строить простые

линейные, нелинейные регрессионные и трендовые модели и получать их статистические характеристики.

 


Поделиться:



Последнее изменение этой страницы: 2019-04-09; Просмотров: 222; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.069 с.)
Главная | Случайная страница | Обратная связь