Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Корреляционный анализ данных



Объем реализации – это зависимая переменная Y (тыс. руб.).

В качестве независимых, объясняющих переменных выбраны:

X1 – время, дни;

X2 – затраты на рекламу, тыс. руб.;

X3 – цена товара, руб.;

X4 – средняя цена товара у конкурентов, руб.;

X5 – индекс потребительских расходов, %.

В этом примере количество наблюдений n = 16, количество объясняющих переменных m = 5.

Для проведения корреляционного анализа используем инструмент Корреляция (надстройка Анализ данных Excel).

В результате будет получена матрица коэффициентов парной корреляции (табл. 2).

 

Таблица 2. Результат корреляционного анализа

  Объем реализации Время Затраты на рекламу Цена товара Средняя цена товара у конкурентов Индекс потребительских расходов
Объем реализации          
Время 0, 678        
Затраты на рекламу 0, 646 0, 106      
Цена товара 0, 233 0, 174 –0, 003    
Средняя цена товара у конкурентов 0, 226 –0, 051 0, 204 0, 698  
Индекс потребительских расходов 0, 816 0, 960 0, 273 0, 235 0, 03

 

Анализ матрицы коэффициентов парной корреляции начнем с анализа первого столбца матрицы, в котором расположены коэффициенты корреляции, отражающие тесноту связи зависимой переменной Объем реализации с включенными в анализ факторами. Анализ показывает, что зависимая переменная, то есть объем реализации, имеет тесную связь с индексом потребительских расходов (ryx5 = 0, 816), с затратами на рекламу (ryx2 = 0, 646) и временем (ryx1 = 0, 678). Факторы Х3 и Х4 имеют слабую связь с зависимой переменной и их не рекомендуется включать в модель регрессии.

Затем перейдем к анализу остальных столбцов матрицы с целью выявления коллинеарности. Факторы Х1 и Х5 тесно связаны между собой ( = 0, 960), что свидетельствует о наличии коллинеарности. Из этих двух переменных оставим Х5 – индекс потребительских расходов, так как rx1y = 0, 678 < rx5y = 0, 816.

Таким образом, на основе анализа только корреляционной матрицы остаются два фактора – Затраты на рекламу и Индекс потребительских расходов (n = 16, k =2).

Одним из условий классической регрессионной модели является предположение о независимости объясняющих переменных.

В нашем примере из двух тесно связанных друг с другом факторов Х1 и Х5 ( = 0, 960) один, Х1, был исключен.

Для выявления мультиколлинеарности оставшихся факторов выполняем тест Фаррара–Глоубера по факторам Х2, Х3, Х4, Х5.

 

1. Проверка наличия мультиколлинеарности всего массива переменных

1. Построим матрицу межфакторных корреляций R1 (табл. 3) и найдем ее определитель с помощью функции МОПРЕД.

Таблица 3. Матрица R1

    X2 X3 X4 X5
  X2 –0, 003 0, 204 0, 273
R1= X3 –0, 003 0, 698 0, 235
  X4 0, 204 0, 698 0, 031
  X5 0, 273 0, 235 0, 031

 

2. Вычислим наблюдаемое значение статистики Фаррара–Глоубера по следующей формуле:

где n = 16 – количество наблюдений;

k = 4 – количество факторов.

Фактическое значение этого критерия FGнабл сравниваем с табличным значением χ 2 при степенях свободы и уровне значимости α = 0, 05. Табличное значение χ 2 можно найти с помощью функции ХИ2.ОБР.ПХ[4] (рис. 1).

Рис. 1. Получение табличного значения χ 2

Так как FGнабл > FGкрит (12, 66 > 12, 59), то в массиве объясняющих переменных существует мультиколлинеарность.

2. Проверка наличия мультиколлинеарности каждой переменной с другими переменными

1. Вычислим обратную матрицу

 

=   X2 X3 X4 X5
X2 1, 252 0, 544 –0, 621 –0, 451
X3 0, 544 2, 376 –1, 749 –0, 654
X4 –0, 621 –1, 749 2, 331 0, 510
X5 –0, 451 –0, 654 0, 510 1, 262
             

2. Вычислим F-критерии , где cjj – диагональные элементы матрицы C:

F2 F3 F4 F5
0, 692 3, 784 3, 660 0, 719

 

3. Фактические значения F-критериев сравниваем с табличным значением Fтабл = 3, 357 при n1 = 4 иn2 = (n – k – 1) = 11 степенях свободы и уровне значимости α = 0, 05, где k – количество факторов.

4. Так как F3 > Fтабл и F4 > Fтабл, то независимые переменные Х3 и Х4 мультиколлинеарны с другими.

 

3. Проверка наличия мультиколлинеарности каждой пары переменных

1. Вычислим частные коэффициенты корреляции по формуле , где cjj – элементы матрицы C:

2. Вычислим t-критерии по формуле :

t2, 3 = –1, 102;

t2, 4 = 1, 293;

t2, 5 = 1, 275;

t3, 4 = 3, 682;

t3, 5 = 1, 353;

t4, 5 = –1, 032.

Фактические значения t-критериев сравниваются с табличным значением при степенях свободы (n – k – 1)=11 и уровне значимости α = 0, 05: tтабл = 2, 201. Так как | t3, 4 | > tтабл и r3, 4(2, 5) = 0, 743 " 1, то между независимыми переменными Х3 и Х4 существует мультиколлинеарность.

Для того чтобы избавиться от мультиколлинеарности, можно исключить одну из переменных мультиколлинеарной пары Х3, Х4. Удалить следует переменную Х3, так как у нее больше значение F-критерия. Следовательно, она больше влияет на общую мультиколлинеарность факторов.

Результаты проведенного теста не опровергают выводы, сделанные ранее только на основе корреляционной матрицы.

Целесообразность включения фактора Х4 рассмотрим с помощью теста на выбор «длинной» и «короткой» регрессии. Этот тест используется для отбора наиболее существенных объясняющих переменных. Иногда переход от большего числа исходных показателей анализируемой системы к меньшему числу наиболее информативных факторов может быть объяснен дублированием информации, из-за сильно взаимосвязанных факторов. Стремление к построению более простой модели приводит к идее уменьшения размерности модели без потери ее качества. Для этого используют тест проверки «длинной» и «короткой» регрессий.

Рассмотрим две модели регрессии:

yi = β 0 + β 1 xi1 + … + β k xik + ε i (длинную),

yi = β 0 + β 1 xi1 + … + β k xik–q + ε i (короткую).

Предположим, что модель не зависит от последних q объясняющих переменных и их можно исключить из модели. Это соответствует гипотезе

H0: β k–q+1 = β k–q+2 = … = β k = 0,

то есть последние q коэффициентов β i равны нулю.

Алгоритм проверки следующий:

1. Построим по МНК «длинную» регрессию по всем факторам Х1, …, Хk и найдем для нее сумму квадратов остатков ESSдлин.

2. Построим по МНК «короткую» регрессию по первым (kq) факторам Х1, …, Хkq и найдем для нее сумму квадратов остатков ESSкор.

3. Вычислим F-статистику:

4. Если Fнабл > Fтабл(α, ν 1 = q, ν 2 = nk – 1), то гипотеза отвергается (выбираем «длинную» регрессию), в противном случае – «короткую» регрессию.

На основании данных примера сравним две модели – «длинную» (с факторами X2, X4, X5) и «короткую» (с факторами X2, X5).

1. Построим «длинную» регрессию по всем факторам X2, X4, X5и найдем для нее сумму квадратов остатков ESSдлин.

 

Дисперсионный анализ
  df SS MS F Значимость F  
Регрессия 138 429, 778 46 143, 259 27, 292 1, 20724E-05  
Остаток 20 288, 659 1 690, 722      
Итого 158 718, 438        
             
  Коэффициенты Стандартная ошибка t-статистика P-значение Нижние 95% Верхние 95%
Y – пересечение –1654, 763 306, 264 –5, 403 0, 000 –2322, 054 –987, 472
X2 9, 052 2, 295 3, 945 0, 002 4, 052 14, 051
X5 15, 825 2, 447 6, 468 0, 000 10, 494 21, 156
X4 10, 539 9, 521 1, 107 0, 290 –10, 206 31, 284

 

2. Построим «короткую» регрессию по первым факторам X2, X5 и найдем для нее сумму квадратов остатков ESSкор.

 

Дисперсионный анализ
  df SS MS F Значимость F  
Регрессия 136 358, 334 68 179, 167 39, 639 2, 93428E-06  
Остаток 22 360, 104 1 720, 008      
Итого 158 718, 438        
             
  Коэффициенты Стандартная ошибка t-статистика P-значение Нижние 95% Верхние 95%
Y – пересечение –1471, 314 259, 766 –5, 664 0, 000 –2032, 505 –910, 124
X2 9, 568 2, 266 4, 223 0, 001 4, 673 14, 464
X5 15, 753 2, 467 6, 386 0, 000 10, 424 21, 082

 

3. Вычислим F-статистику:

 

 

Fтабл = 4, 747.

 

4. Так как Fнабл < Fтабл (1, 125 < 4, 747), выбираем «короткую» регрессию

 

= –1471, 31 + 9, 57х2 + 15, 75х5.

 


Поделиться:



Последнее изменение этой страницы: 2017-03-14; Просмотров: 108; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.023 с.)
Главная | Случайная страница | Обратная связь