Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


ПАРНАЯ ЛИНЕЙНАЯ И НЕЛИНЕЙНАЯ КОРРЕЛЯЦИЯ



Социально-экономические явления, обладая большим разнообразием, характеризуются множеством признаков, отражающих те или иные их свойства. При этом для данных явлений характерно то, что наряду с существенными факторами на них оказывают воздей­ствие многие другие, в том числе случайные факторы. В этом случае говорят о статистической зависимости.

Частным случаем статистической зависимости является кор­реляционная зависимость, имеющая огромное значение в эконометрике. Корреляционная зависимость – это связь, при которой каждому значению не­зависимой переменной х соответствует определенное математическое ожидание (среднее значение) зависимой переменной у. Корреляция между двумя переменными может быть линейной и нелинейной.

Аналитически линейная корреляция определяется уравнением прямой:

(1.1)

К нелинейным относятся все другие виды корреляционных зависимостей, аналитически выражаемых уравнениями вида:

, , и т.п.

Тесноту линейной связи между двумя коррелирующими переменными без разделения их на зависимую и независимую переменные характеризуют линейным коэффициентом парной корреляции :

, (1.2)

где – данные наблюдений переменных и ; – количество наблюдений; – средние значения переменных и (простое среднее арифметическое); – средние квадратические отклонения переменных и :

, . (1.3)

Линейный коэффициент парной корреляции изменяется в диапазоне . При связь между переменными является прямой, при связь обратная. Чем ближе к 1, тем теснее линейная связь между переменными и тем точнее аналитическое уравнение отражает данные наблюдений.

Часто используется следующая градация степени тесноты связи парной линейной корреляции: – связь практически отсутствует, – связь слабая, – связь умеренная, – связь сильная, – связь функциональная.

Теснота нелинейной связи между двумя коррелирующими переменными характеризуется индексом корреляции :

, (1.4)

где – расчётные значения переменной , т.е. значения переменной , вычисленные по уравнению нелинейной связи .

Индекс корреляции принимает значения в диапазоне . Чем ближе величина к 1, тем теснее нелинейная связь. При нелинейная связь является функциональной.

Для оценки статистической значимости линейного коэффициента парной корреляции используют расчётный критерий Стьюдента

. (1.5)

Значение сравнивается с критическим табличным значением критерия Стьюдента для количества степеней свободы и заданного уровня значимости . Если , то значение признается статистически значимым, в противном случае – статистически незначимым.

Уровень значимости статистического теста представляет собой вероятность отвергнуть нулевую статистическую гипотезу (обычно принимается на уровне 0, 05 или 0, 01), если она верна.

Для оценки статистической значимости индекса корреляции используется расчётное значение F-критерия Фишера

. (1.6)

сравнивается с критическим табличным значением критерия Фишера для количества степеней свободы , и заданного уровня значимости . Если , то значение признается статистически значимым, в противном случае – статистически незначимым.

Помимо проверки значимости полученного значения линейного коэффициента парной корреляции важное значение имеет построение доверительного интервала для . Доверительный интервал характеризует границы, в которых находится точное значение оцениваемого показателя с заданной вероятностью .

При построении доверительного интервала для сначала производится расчёт величины с использованием Z-преобразования Фишера

. (1.7)

Далее производится интервальная оценка для величины

, (1.8)

где , рассчитанное по формуле 1.7; – квентиль стандартного нормального распределения порядка .

Границы доверительного интервала для рассчитываются на основе границ доверительного интервала для с использованием обратного Z-преобразования Фишера :

, . (1.9)

 

Задание

 

Исходные данные для лабораторной работы представлены табл. 1.1 значений переменных x и y (по вариантам). Расчёты произвести с помощью таблиц MS Excel. Принять уровень значимости .

1. Рассчитать линейный коэффициент парной корреляции и индекс корреляции . В случае необходимости изменить уравнение нелинейной зависимости для математически корректного расчёта индекса корреляции . Сделать выводы о тесноте и характере связи между переменными.

2. Оценить значимость линейного коэффициента парной корреляции и индекса корреляции .

3. Рассчитать доверительный интервал для статистически значимого коэффициента парной корреляции .

Таблица 1.1

Исходные данные к лабораторной работе № 1 по вариантам

 

№ варианта Переменная x (из табл. 1 Приложения 1) Переменная y (из табл. 1 Приложения 1) Уравнение нелинейной зависимости
Х6 Y1
Х7 Y1
Х8 Y1
Х2 Y1
Х3 Y1
Х4 Y1
Х5 Y1
Х10 Y2
Х1 Y2
Х9 Y3
Х2 Y3
Х3 Y3
Х4 Y3
Х1 Y3
Х5 Y3

Решение типового примера

Пусть даны следующие значения переменных x и y по месяцам 2012 г., а также вид уравнения нелинейной зависимости (табл. 1.2):

Таблица 1.2

Исходные данные типового примера

 

 
x – эксплуатационные расходы, тыс. руб.
y – себестоимость перевозок, руб./ваг-км 1, 63 1, 44 1, 41 1, 50 1, 32 1, 44 1, 22 1, 24 1, 41 1, 63 1, 43 1, 49
Уравнение нелинейной зависимости

 

1. Для расчёта линейного коэффициента парной корреляции и индекса корреляции произведём промежуточные вычисления с помощью таблиц MS Excel согласно формулам 1.2, 1.3 и 1.4 в табл. 1.3

Таблица 1.3

Промежуточные расчёты типового примера

№ п/п
1, 63 0, 20 1640, 4 0, 0400 22, 82 520, 79
1, 44 –10322 0, 01 –103, 2 0, 0001 15, 56 241, 99
1, 41 –1669 –0, 02 33, 4 0, 0004 18, 90 357, 12
1, 50 –294 0, 07 –20, 6 0, 0049 19, 36 374, 86
1, 32 –2681 –0, 11 294, 9 0, 0121 18, 58 345, 39
1, 44 0, 01 56, 8 0, 0001 21, 92 480, 35
1, 22 –8342 –0, 21 1751, 8 0, 0441 16, 51 272, 49
1, 24 –5168 –0, 19 981, 9 0, 0361 17, 69 313, 02
1, 41 –1141 –0, 02 22, 8 0, 0004 19, 11 365, 16
1, 63 0, 20 2691, 4 0, 0400 25, 19 634, 31
1, 43 –4502 0, 00 0, 0 0, 0000 17, 76 315, 43
1, 49 0, 06 406, 5 0, 0036 22, 34 498, 95
Сумма 17, 16     7756, 1 0, 1818   4719, 86
Среднее арифметическое суммы 1, 43     646, 3 0, 0152    

Тогда согласно формулам 1.2 и 1.3 имеем следующее значение линейного коэффициента парной корреляции:

, , .

Таким образом, для рассматриваемых переменных характерна сильная линейная корреляционная связь, причём положительная (прямая) – с ростом эксплуатационных расходов растёт себестоимость и наоборот.

Индекс корреляции лежит в интервале , т.е. является вещественным числом. Поэтому необходимо изменить предлагаемое уравнение нелинейной зависимости из условия работы (в противном случае подкоренное выражение по данным табл. 1.3 получается отрицательным). Заменяем коэффициент при с на в уравнении и пересчитываем суммы в табл. 1.3. Тогда получаем следующее значение индекса корреляции согласно формуле 1.4:

.

Как видно из расчёта индекса корреляции нелинейная зависимость между переменными проявляется слабее, нежели линейная.

2. Расчётный критерий Стьюдента для оценки значимости согласно формуле 1.5 равен

.

Критическое значение статистики Стьюдента находим по табл. 1 Приложения 2 для заданного уровня значимости и количества степеней свободы : . Так как , то найденное значение признается статистически значимым.

Расчётный критерий Фишера для оценки значимости согласно формуле 1.6 равен

.

Критическое значение статистики Фишера находим по табл. 2 Приложения 2 для заданного уровня значимости и количества степеней свободы и : . Так как , то найденное значение признается статистически незначимым.

3. Для построения доверительного интервала для статистически значимого рассчитаем величину по формуле 1.7 (Z-преобразование Фишера):

.

Квентиль стандартного нормального распределения порядка можно получить с помощью функции MS Excel НОРМСТОБР (0, 975):

.

Тогда имеем следующие границы доверительного интервала для согласно формуле 1.8:

,

.

Теперь оценим границы доверительного интервала для на основе границ доверительного интервала для с использованием обратного Z-преобразования Фишера согласно формуле 1.9 с помощью функции ФИШЕРОБР (z) из MS Excel:

,

.

Таким образом, доверительный интервал для равен (0, 3471; 0, 9314).

 

Лабораторная работа № 2

 

ПАРНАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

Наиболее простой эконометрической моделью, построенной на основе парной линейной корреляционной связи, является модель парной линейной регрессии, имеющая вид:

, (2.1)

где независимая (факторная) переменная; зависимая (результативная) переменная; параметры (коэффициенты) уравнения регрессии; – независимая, нормально распределённая случайная величина, остаток с нулевым математическим ожиданием и постоянной дисперсией.

Оценка параметров производится классическим методом наименьших квадратов (МНК) путём минимизации суммы квадратов остатков:

. (2.2)

В результате минимизации остатков строится система нормальных уравнений. Решением системы находятся следующие формулы для расчёта оценок параметров через наблюдаемые значения переменных

, . (2.3)

Качество регрессионной модели оценивают с помощью коэффициента детерминации , который определяется по формуле

, (2.4)

где , – расчётные (прогнозные) значения величины , полученные подстановкой соответствующих значений в уравнение регрессии. Коэффициент детерминации показывает, какую часть вариации (дисперсии) зависимой переменной объясняет построенное уравнение регрессии.

Для проверки значимости уравнения регрессии рассчитывается значение критерия Фишера по формуле (k – число факторов):

, (2.5)

где , . (2.6)

Далее находится критическое значение критерия Фишера для заданного уровня значимости и количества степеней свободы и . Если , то делается вывод о значимости уравнения регрессии (нулевая гипотеза о статистической незначимости уравнения регрессии отвергается), в противном случае уравнение регрессии признается статистически незначимым.

Одним из методов оценки значимости коэффициентов регрессионного уравнения является построение доверительных интервалов. Доверительные интервалы для коэффициентов регрессии имеют соответственно вид

, (2.7)

. (2.8)

При этом исправленные выборочные оценки стандартных отклонений (ошибок) МНК-коэффициентов регрессии вычисляются по формулам

, , , (2.9)

а критическое значение критерия Стьюдента определяется для количества степеней свободы и заданного уровня значимости .

Если по результатам расчёта доверительного интервала окажется, что доверительный интервал включает 0, то соответствующий коэффициент регрессии объявляется незначимым, в противном случае соответствующий коэффициент значим.

Альтернативным методом оценки значимости рассчитанных коэффициентов регрессионного уравнения является использование расчётных значений t-критерия Стьюдента, которые определяются по формулам:

, ( в общем случае). (2.10)

Расчётные значения t-статистик сравниваются (по модулю) с критическими значениями t -статистик, определёнными для количества степеней свободы и заданного уровня значимости . Если расчётное значение превосходит критическое, то нулевая гипотеза о равенстве нулю коэффициента регрессии отвергается и соответствующий параметр признается значимым, в противном случае – незначимым.

Точность построенного уравнения регрессии можно оценить с помощью средней ошибки аппроксимации (допустимый предел значений – не более 8–10%):

. (2.11)

Средний коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится результат от своей величины при изменении фактора на 1% от своего значения:

. (2.12)

Прогнозное значение (точечный прогноз) определяется путём подстановки в уравнение регрессии соответствующего (прогнозного) значения независимой переменной .

Для построения доверительного интервала прогноза сначала вычисляется средняя стандартная ошибка прогноза :

. (2.13)

Затем строится сам доверительный интервал по формуле (для заданного уровня значимости ):

. (2.14)

Быстрое развитие эконометрики во второй половине ХХ – начале ХХI века одновременно с развитием компьютерных технологий привело к появлению специализированных эконометрических пакетов для построения и анализа эконометрических моделей на компьютерах. К получившим известность эконометрическим пакетам относятся SAS, GAUSS, STATA, TSP, SPSS, Microfit386, Econometric Views. В данной лабораторной работе для расчетов используется некоммерческий эконометрический пакет Gretl, версия 1.9.14 (официальный сайт пакета: http: //gretl.sourceforge.net/).

 

Задание

 

Исходные данные для лабораторной работы представлены табл. 1.1 значений переменных x и y (по вариантам, см. лабораторную работу № 1, столбцы «№ варианта», «Переменная x», «Переменная y»). Для пунктов 1–8 ниже расчёты произвести в MS Excel, для пунктов 9–10 – в Gretl. Принять для данной лабораторной работы уровень значимости .

1. Составить уравнение парной линейной регрессии .

2. С помощью коэффициента детерминации оценить качество построенной модели.

3. Оценить значимость уравнения регрессии с помощью дисперсионного анализа.

4. Построить доверительные интервалы для оценки параметров регрессии и сделать вывод о значимости параметров.

5. С помощью значений t-статистики Стьюдента для параметров регрессии подтвердить вывод о значимости параметров, полученный в п. 4.

6. Оценить точность построенного уравнения регрессии с помощью средней ошибки аппроксимации.

7. Рассчитать и интерпретировать средний коэффициент эластичности.

8. Определить точечный прогноз при . Построить доверительный интервал прогноза .

9. Определить параметры уравнения регрессии, коэффициент детерминации, расчётные и критические значения t- и F-статистик, исправленные выборочные оценки стандартных отклонений (ошибок) МНК-коэффициентов, доверительные интервалы для коэффициентов регрессии, стандартную ошибку модели с помощью эконометрического пакета Gretl и сравнить с результатами расчёта в MS Excel (результаты должны совпасть).

10. Построить график наблюдаемых значений и прямую регрессии в Gretl, объяснить порядок построения графика.

Решение типового примера

Пусть даны следующие значения переменных x и y по месяцам 2012 г. (табл. 1.2, см. лабораторную работу № 1).

1. Для расчётов согласно формулам 2.3, 2.4, 2.6, 2.9, 2.11, 2.12, 2.13, 2.14 произведём промежуточные вычисления с помощью таблиц MS Excel в табл. 2.1.

Таблица 2.1

Промежуточные расчёты типового примера

№ п/п
1, 63 2, 66 175014, 7 1, 5434 –0, 0866
1, 44 2, 07 127939, 7 1, 2873 –0, 1527
1, 41 1, 99 137475, 0 1, 4069 –0, 0031
1, 50 2, 25 148312, 5 1, 4259 –0, 0741
1, 32 1, 74 127364, 2 1, 3929 0, 0729
1, 44 2, 07 150988, 3 1, 5086 0, 0686
1, 22 1, 49 110808, 9 1, 3147 0, 0947
1, 24 1, 54 116561, 2 1, 3586 0, 1186
1, 41 1, 99 138219, 5 1, 4142 0, 0042
1, 63 2, 66 183580, 4 1, 6160 –0, 0140
1, 43 2, 04 135373, 8 1, 3678 –0, 0622
1, 49 2, 22 157855, 1 1, 5237 0, 0337
Сумма 17, 16 24, 72 1709493, 3 17, 1600 0, 0000
Среднее арифметическое суммы 1, 43     142457, 8 1, 4300 0, 0000

Продолжение табл. 2.1

 

№ п/п
0, 0075 0, 11 0, 01 8202, 17 67275538, 03 0, 0531
0, 0233 –0, 14 0, 02 –10321, 83 106540243, 36 0, 1060
0, 0000 –0, 02 0, 00 –1668, 83 2785004, 69 0, 0022
0, 0055 0, 00 0, 00 –293, 83 86338, 03 0, 0494
0, 0053 –0, 04 0, 00 –2680, 83 7186867, 36 0, 0553
0, 0047 0, 08 0, 01 5684, 17 32309750, 69 0, 0476
0, 0090 –0, 12 0, 01 –8341, 83 69586183, 36 0, 0776
0, 0141 –0, 07 0, 01 –5167, 83 26706501, 36 0, 0956
0, 0000 –0, 02 0, 00 –1140, 83 1301500, 69 0, 0030
0, 0002 0, 19 0, 03 13457, 17 181095334, 69 0, 0086
0, 0039 –0, 06 0, 00 –4501, 83 20266503, 36 0, 0435
0, 0011 0, 09 0, 01 6774, 17 45889334, 03 0, 0226
Сумма 0, 0746 0, 0000 0, 1072 0, 0000 561029099, 67 0, 5645
Среднее арифметическое суммы 0, 0062         0, 0470

 

Согласно формулам 2.3 и промежуточным вычислениям в табл. 2.1 имеем следующие значения оценок коэффициентов регрессии:

,

,

тогда искомое уравнение парной линейной регрессии выглядит следующим образом:

.

2. Согласно формуле 2.4 и промежуточным вычислениям в таблице 2.1 рассчитаем коэффициент детерминации :

,

таким образом построенное уравнение регрессии объясняет 59% вариации (дисперсии) зависимой переменной .

3. Для проверки значимости уравнения регрессии рассчитаем значение критерия Фишера по формуле 2.5:

, ,

.

При этом критическое значение критерия Фишера для заданного уровня значимости и количества степеней свободы и согласно табл. 2 Приложения 2 равно . Так как , то делаем вывод о значимости уравнения регрессии.

4. Для построения доверительных интервалов для коэффициентов регрессионного уравнения воспользуемся формулами 2.9 для расчёта исправленных выборочных оценок стандартных отклонений :

, , .

Критическое значение статистики Стьюдента находим по табл. 1 Приложения 2 для заданного уровня значимости и количества степеней свободы : . Соответственно, согласно формулам 2.7 и 2.8 искомые доверительные интервалы для следующие:

, .

Т.к. доверительный интервал для включает в себя 0, то коэффициент незначим. Доверительный интервал для не включает в себя 0, поэтому коэффициент значим.

5. Определим расчётные значения t-критерия Стьюдента для коэффициентов регрессии по формулам 2.10:

, .

Критическое значение статистики Стьюдента находим по табл. 1 Приложения 2 для заданного уровня значимости и количества степеней свободы : .

Так как , то коэффициент незначим; т.к. , то коэффициент значим. Таким образом, вывод о значимости коэффициентов, полученный в п. 4 лабораторной работы с использованием доверительных интервалов, подтверждён.

6. Оценим точность построенного уравнения регрессии с помощью расчёта средней ошибки аппроксимации по формуле 2.11:

,

т.е. в среднем расчётные значения отклоняются от фактических значений на 4, 7%, точность построенного уравнения регрессии высокая.

7. Рассчитаем средний коэффициент эластичности по формуле 2.12:

.

Таким образом, при изменении фактора (эксплуатационные расходы) на +1% от своего значения, результат (себестоимость перевозок) изменится на +0, 96% от своей величины в среднем по совокупности.

8. Прогнозное значение независимой переменной , тогда прогнозное значение (точечный прогноз) равен:

.

Рассчитаем среднюю стандартную ошибку прогноза по формуле 2.13: .

Тогда по формуле 2.14 искомый доверительный интервал для ( для и количества степеней свободы ) при :

.

9. Данные для расчёта в Gretl проще всего импортировать в эконометрический пакет из MS Excel. Перенесём исходные данные (табл. 2.1, столбцы 2 и 3) на лист Excel.

Импортируем данные из подготовленной таблицы Excel в Gretl с помощью функции Файл-Открыть-Импорт-Excel. Теперь построим модель линейной парной регрессии в Gretl с помощью функции Модель-Метод наименьших квадратов с выбором зависимой и независимой переменных.

Рассмотрим построенную в окне Gretl модель.


Поделиться:



Популярное:

Последнее изменение этой страницы: 2016-03-17; Просмотров: 2767; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.113 с.)
Главная | Случайная страница | Обратная связь