Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Корреляционный анализ данных
Объем реализации – это зависимая переменная Y (тыс. руб.). В качестве независимых, объясняющих переменных выбраны: X1 – время, дни; X2 – затраты на рекламу, тыс. руб.; X3 – цена товара, руб.; X4 – средняя цена товара у конкурентов, руб.; X5 – индекс потребительских расходов, %. В этом примере количество наблюдений n = 16, количество объясняющих переменных m = 5. Для проведения корреляционного анализа используем инструмент Корреляция (надстройка Анализ данных Excel). В результате будет получена матрица коэффициентов парной корреляции (табл. 2).
Таблица 2. Результат корреляционного анализа
Анализ матрицы коэффициентов парной корреляции начнем с анализа первого столбца матрицы, в котором расположены коэффициенты корреляции, отражающие тесноту связи зависимой переменной Объем реализации с включенными в анализ факторами. Анализ показывает, что зависимая переменная, то есть объем реализации, имеет тесную связь с индексом потребительских расходов (ryx5 = 0, 816), с затратами на рекламу (ryx2 = 0, 646) и временем (ryx1 = 0, 678). Факторы Х3 и Х4 имеют слабую связь с зависимой переменной и их не рекомендуется включать в модель регрессии. Затем перейдем к анализу остальных столбцов матрицы с целью выявления коллинеарности. Факторы Х1 и Х5 тесно связаны между собой ( = 0, 960), что свидетельствует о наличии коллинеарности. Из этих двух переменных оставим Х5 – индекс потребительских расходов, так как rx1y = 0, 678 < rx5y = 0, 816. Таким образом, на основе анализа только корреляционной матрицы остаются два фактора – Затраты на рекламу и Индекс потребительских расходов (n = 16, k =2). Одним из условий классической регрессионной модели является предположение о независимости объясняющих переменных. В нашем примере из двух тесно связанных друг с другом факторов Х1 и Х5 ( = 0, 960) один, Х1, был исключен. Для выявления мультиколлинеарности оставшихся факторов выполняем тест Фаррара–Глоубера по факторам Х2, Х3, Х4, Х5.
1. Проверка наличия мультиколлинеарности всего массива переменных 1. Построим матрицу межфакторных корреляций R1 (табл. 3) и найдем ее определитель с помощью функции МОПРЕД. Таблица 3. Матрица R1
2. Вычислим наблюдаемое значение статистики Фаррара–Глоубера по следующей формуле: где n = 16 – количество наблюдений; k = 4 – количество факторов. Фактическое значение этого критерия FGнабл сравниваем с табличным значением χ 2 при степенях свободы и уровне значимости α = 0, 05. Табличное значение χ 2 можно найти с помощью функции ХИ2.ОБР.ПХ[4] (рис. 1). Рис. 1. Получение табличного значения χ 2 Так как FGнабл > FGкрит (12, 66 > 12, 59), то в массиве объясняющих переменных существует мультиколлинеарность. 2. Проверка наличия мультиколлинеарности каждой переменной с другими переменными 1. Вычислим обратную матрицу
2. Вычислим F-критерии , где cjj – диагональные элементы матрицы C:
3. Фактические значения F-критериев сравниваем с табличным значением Fтабл = 3, 357 при n1 = 4 иn2 = (n – k – 1) = 11 степенях свободы и уровне значимости α = 0, 05, где k – количество факторов. 4. Так как F3 > Fтабл и F4 > Fтабл, то независимые переменные Х3 и Х4 мультиколлинеарны с другими.
3. Проверка наличия мультиколлинеарности каждой пары переменных 1. Вычислим частные коэффициенты корреляции по формуле , где cjj – элементы матрицы C: 2. Вычислим t-критерии по формуле : t2, 3 = –1, 102; t2, 4 = 1, 293; t2, 5 = 1, 275; t3, 4 = 3, 682; t3, 5 = 1, 353; t4, 5 = –1, 032. Фактические значения t-критериев сравниваются с табличным значением при степенях свободы (n – k – 1)=11 и уровне значимости α = 0, 05: tтабл = 2, 201. Так как | t3, 4 | > tтабл и r3, 4(2, 5) = 0, 743 " 1, то между независимыми переменными Х3 и Х4 существует мультиколлинеарность. Для того чтобы избавиться от мультиколлинеарности, можно исключить одну из переменных мультиколлинеарной пары Х3, Х4. Удалить следует переменную Х3, так как у нее больше значение F-критерия. Следовательно, она больше влияет на общую мультиколлинеарность факторов. Результаты проведенного теста не опровергают выводы, сделанные ранее только на основе корреляционной матрицы. Целесообразность включения фактора Х4 рассмотрим с помощью теста на выбор «длинной» и «короткой» регрессии. Этот тест используется для отбора наиболее существенных объясняющих переменных. Иногда переход от большего числа исходных показателей анализируемой системы к меньшему числу наиболее информативных факторов может быть объяснен дублированием информации, из-за сильно взаимосвязанных факторов. Стремление к построению более простой модели приводит к идее уменьшения размерности модели без потери ее качества. Для этого используют тест проверки «длинной» и «короткой» регрессий. Рассмотрим две модели регрессии: yi = β 0 + β 1 xi1 + … + β k xik + ε i (длинную), yi = β 0 + β 1 xi1 + … + β k xik–q + ε i (короткую). Предположим, что модель не зависит от последних q объясняющих переменных и их можно исключить из модели. Это соответствует гипотезе H0: β k–q+1 = β k–q+2 = … = β k = 0, то есть последние q коэффициентов β i равны нулю. Алгоритм проверки следующий: 1. Построим по МНК «длинную» регрессию по всем факторам Х1, …, Хk и найдем для нее сумму квадратов остатков ESSдлин. 2. Построим по МНК «короткую» регрессию по первым (k – q) факторам Х1, …, Хk–q и найдем для нее сумму квадратов остатков ESSкор. 3. Вычислим F-статистику:
4. Если Fнабл > Fтабл(α, ν 1 = q, ν 2 = n – k – 1), то гипотеза отвергается (выбираем «длинную» регрессию), в противном случае – «короткую» регрессию. На основании данных примера сравним две модели – «длинную» (с факторами X2, X4, X5) и «короткую» (с факторами X2, X5). 1. Построим «длинную» регрессию по всем факторам X2, X4, X5и найдем для нее сумму квадратов остатков ESSдлин.
2. Построим «короткую» регрессию по первым факторам X2, X5 и найдем для нее сумму квадратов остатков ESSкор.
3. Вычислим F-статистику:
Fтабл = 4, 747.
4. Так как Fнабл < Fтабл (1, 125 < 4, 747), выбираем «короткую» регрессию
ẏ = –1471, 31 + 9, 57х2 + 15, 75х5.
|
Последнее изменение этой страницы: 2017-03-14; Просмотров: 108; Нарушение авторского права страницы