Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Качество оценок МНК линейной множественной регрессии.
Теорема Гаусса-Маркова В классическом множественном регрессионном анализе обычно делаются следующие предпосылки: 1. Математическое ожидание случайного члена равно нулю в любом налюдении (3.30) 2. Дисперсия случайного члена постоянна для всех наблюдений . (3.31) 3. Значения случайного члена в любых наблюдениях и не коррелируют между собой Cov( ) = 0 (i ≠ j). (3.32) Это условие с учетом того, что М( ) = М( ) = 0 принимает вид M( ) = 0 (i ≠ j). (3.33) 4. Случайный член должен быть распределен независимо от объясняющих переменных в одних и тех же наблюдениях Cov( ) = M( ) = 0, (3.34) где было учтено, что М( ) = 0. Следует сказать, что последнее условие заведомо выполняется, если объясняющие переменные считаются детерминированными величинами. 5. Матрица является неособенной, т. е. столбцы матрицы X линейно независимы. 6. Значения случайного члена распределены по нормальному закону.
Модель (3.6), удовлетворяющая приведенным предпосылкам 1- 6, называется классической нормальной линейной моделью множественной регрессии. Модель (3.6), удовлетворяющая приведенным предпосылкам 1- 5, называется классической линейной моделью множественной регрессии. Согласно теореме Гаусса-Маркова, при выполнении указанных предпосылок оценки параметров линейной множественной регрессии (3.13), полученные методом наименьших квадратов, будут несмещенными и эффективными (т. е. будут иметь наименьшую дисперсию) в классе линейных несмещенных оценок. Нарушение одного из условий Гаусса-Маркова приводит к нарушению эффективности оценок, т. е. в классе несмещенных оценок можно найти такие, которые имеют меньшую дисперсию. После построения модели необходимо вычислить значения остатков еi и проверить выполнение предпосылок 1- 6, так как их нарушение снижает качество модели. Если условия нарушаются, то следует модернизировать модель соответствующим образом. Эти вопросы будут рассмотрены далее.
3.6. Проверка качества уравнения регрессии. F-критерий Фишера Как и в случае парной регрессии для оценки качества полученного множественной уравнения регрессии (3.6) можно использовать коэффициентмножественной детерминации, представляющий собой отношение факторной суммы квадратов остатков к их общей сумме квадратов: (3.35) - остаточная сумма квадратов. Коэффициент множественной корреляции равен корню из коэффициента множественной детерминации: (3.36) Оба показателя изменяются от нуля до единицы. показывает, какая часть вариации результативного признака y объяснена уравнением регрессии. Чем выше значение , тем лучше данная модель согласуется с данными наблюдений. Коэффициент множественной корреляции R используется для оценки тесноты связи факторов с исследуемым признаком. Чем ближе величина R к единице, тем теснее данная связь, тем лучше теоретическая зависимость согласуется с эмпирическими данными. Введём понятие дисперсии на одну степень свободы (df). , (3.37) где (n-1) - количество степеней свободы для общей дисперсии; p–для факторнойдисперсии (количество независимых переменных в уравнении регрессии); (n-p-1) – для остаточной дисперсии. Оценка статистической значимости уравнения регрессии (а также коэффициента детерминации ) осуществляется с помощью F-критерия Фишера (3.38) Согласно F-критерию Фишера, выдвигаемая «нулевая» гипотеза H0 о статистической незначимости уравнения регрессии отвергается при выполнении условия F > Fкрит, где Fкрит определяется по таблицам F-критерия Фишера по двум степеням свободы k1 = p, k2 = n-p-1 и заданному уровню значимости α. Величина коэффициента множественной корреляции R не может быть меньше максимального парного индекса корреляции max . В случае линейной зависимости (3.6) коэффициент корреляции R связан с парными коэффициентами корреляции соотношением (3.39)
Использование коэффициента множественной детерминации R2 для оценки качества модели, обладает тем недостатком, что включение в модель нового фактора (даже несущественного) автоматически увеличивает величину . Поэтому при большом количестве факторов предпочтительнее использовать, так называемый, скорректированный, улучшенный (adjusted) коэффициент множественной детерминации , определяемый соотношением (3.40) Чем больше величина p, тем сильнее различия и . При использовании для оценки целесообразности включения фактора в уравнение регрессии следует учитывать, что увеличение при включении нового фактора не обязательно свидетельствует о его значимости, так как значение увеличивается всегда, когда t - статистика по модулю больше единицы. При заданном объеме наблюдений и при прочих равных условиях с увеличением числа независимых переменных (параметров) скорректированный коэффициент множественной детерминации убывает. При небольшом числе наблюдений скорректированная величина коэффициента множественной детерминации имеет тенденцию переоценивать долю вариации результативного признака, связанную с влиянием факторов, включенных в регрессионную модель. Отметим, что низкое значение коэффициента множественной корреляции и коэффициента множественной детерминации может быть обусловлено следующими причинами: – в регрессионную модель не включены существенные факторы; – неверно выбрана форма аналитической зависимости, не отражающая реальные соотношения между переменными, включенными в модель. Популярное:
|
Последнее изменение этой страницы: 2016-03-25; Просмотров: 1705; Нарушение авторского права страницы