Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Спецификации модели регрессии.



Построение уравнения регрессии начинается с решения вопроса о спецификации модели, т.е. формулировки вида модели, исходя из теории, устанавливающей связь между явлениями. Она включает в себя два круга вопросов: отбор факторов и выбор вида уравнения регрессии. Из всего круга факторов, влияющих на результативный признак, необходимо выделить наиболее существенно влияющие факторы.

От правильно выбранной спецификации модели зависит величина случайных ошибок: они тем меньше, чем в большей мере теоретические значения результативного признака подходят к фактическим данным.

К ошибкам спецификации будут относиться не только неправильный выбор той или иной математической функции, а также влияние лишней переменной и недоучет в уравнении регрессии какого-либо существенного фактора.

Влияние неучтенной переменной.

Пусть - истинная модель.

Будем рассматривать ложную модель . По выборке для этой модели мы оценили уравнение регрессии: .

Т.о. по МНК: (для ложной модели).

А на самом деле: - несмещенная, эффективная, состоятельная.

Т.е. - смещенная оценка параметра (т.к. в модель не включен ).

Рассмотрим величину смещения оценки : .

В истинной модели и прямо воздействуют на у с силой воздействия и соответственно. В ложной модели прямо воздействуют на у с силой воздействия , а также замещает переменную в ее воздействии на у, т.е. имеет место эффект замещения .

.

Это замещение возможно, т.к. , т.е. между и есть связь: , где по МНК.

Влияние лишней переменной.

Пусть - истинная модель.

Будем рассматривать ложную модель . По выборке для этой модели мы оценили уравнение регрессии: .

Т.к. на самом деле , то - оценка , т.е.

При этом , т.е. - несмещенная оценка.

Однако (см. условия Г-М).

Т.о. оценка - неэффективная. Она менее точная, чем . Учет лишней переменной дает неточную оценку параметра.

 

Мультиколлинеарность.

Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:

1. Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность.

2. Включаемые во множественную регрессию факторы должны объяснять вариацию независимой переменной. При дополнительном включении в регрессию фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если этого не происходит, то включаемый фактор не улучшает модель и практически является лишним фактором. Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по критерию Стьюдента.

3. Факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.

Включение в модель факторов с высокой интеркорреляцией, когда для зависимости может привести к нежелательным последствиям – система нормальных уравнений может оказаться плохо обусловленной и повлечь за собой неустойчивость и ненадежность оценок коэффициентов регрессии.

Отбор факторов обычно осуществляется в две стадии: на первой подбираются факторы исходя из сущности проблемы; на второй – на основе матрицы показателей корреляции.

Матрица коэффициентов корреляции:

  y x z v
y      
x 0, 8    
z 0, 7 0, 8  
v 0, 6 0, 5 0, 2

Коэффициенты интеркорреляции (т.е. корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если ( - парный коэффициент корреляции).

Если факторы явно коллинеарны, то они дублируют друг друга, и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

Очевидно, что факторы x и z дублируют друг друга. В анализ целесообразно включить фактор z, а не х, так как корреляция z с результатом у слабее, чем корреляция фактора х с у ( ), но зато слабее межфакторная корреляция . Поэтому в данном случае в уравнение множественной регрессии включаются факторы z, v.

По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов.

Наибольшие трудности в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т.е. имеет место совокупное воздействие факторов друг на друга.

Мультиколлинеарность – ситуация, при которой линейная зависимость между независимыми переменными приводит к получению неэффективных, ненадежных оценок линейной регрессии.

Реальная (частичная) мультиколлинеарность возникает в случае существования достаточно тесных статистических связей между объясняющими переменными.

Наличие мультиколлинеарности факторов может означать, что некоторые факторы всегда будут действовать вместе. В результате вариация в исходных данных перестает быть полностью независимой, и нельзя оценить воздействие каждого фактора в отдельности. Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью МНК:

предполагается, что , где

- общая сумма квадратов отклонений ;

- факторная (объясненная) сумма квадратов отклонений ;

- остаточная сумма квадратов отклонений .

В свою очередь, при независимости факторов друг от друга выполнимо равенство

, где

- суммы квадратов отклонений, обусловленные влиянием соответствующих факторов.

Если же факторы интеркоррелированы, то данное равенство нарушается.

Включение в модель мультиколлинеарных факторов нежелательно в силу следующих последствий:

· Затрудняется интерпретация параметров множественной регрессии; параметры линейной регрессии теряют экономический смысл;

· Оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величине, но и по знаку), что делают модель непригодной для анализа и прогнозирования.

Для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами.

Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции была бы единичной матрицей, поскольку все недиагональные элементы были бы равны 0. Так для уравнения регрессии, включающего три объясняющих переменных, матрица парных коэффициентов корреляции имела бы определитель, равный 1:

.

Если же между факторами существует полная линейная зависимость и все коэффициенты корреляции равны 1, то определитель такой матрицы равен 0:

.

Чем ближе к нулю определитель матрицы, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И, наоборот, чем ближе к единице определитель матрицы, чем меньше мультиколлинеарность факторов.

Оценка значимости мультиколлинеарности факторов может быть проведена методом испытания гипотезы о независимости переменных Н0: . Доказано, что величина имеет приближенное распределение с ( )степенями свободы. Если фактическое значение превосходит табличное (критическое) , то гипотеза Н0 отклоняется. Это означает, что , недиагональные ненулевые коэффициенты корреляции указывают на коллинеарность факторов. Мультиколлинеарность считается доказанной.

Существует ряд подходов преодоления сильной межфакторной корреляции.

1) Самый простой путь устранения мультиколлинеарности состоит в исключении из модели одного или нескольких факторов.

2) Другой подход связан с преобразованием факторов, при котором уменьшается корреляция между ними. Например, при построении модели на основе рядов динамики переходят от первоначальных данных к первым разностям уровней , чтобы исключить влияние тенденции.

3) Используются такие методы, которые сводят к нулю межфакторную корреляцию, т.е. переходят от исходных переменных к их линейным комбинациям, не коррелированных друг с другом (метод главных компонент: с помощью метода главных компонент осуществляется переход к ортогонализированным объясняющим переменным. Эти новые объясняющие переменные представляют собой некоторые линейные комбинации исходных регрессоров, выбранные так, чтобы корреляции между ними были малы или вообще отсутствовали).

4) Решению проблемы устранения мультиколлинеарности факторов может помочь переход к уравнениям приведенной формы. С этой целью в уравнение регрессии производится подстановка рассматриваемого фактора через выражение его из другого уравнения.

5) К способам снижения мультиколлинеарности можно отнести увеличение объема выборки; увеличение (нерепрезентативность выборки→ анализ ограниченной части генеральной совокупности→ занижена→ оценки ненадежны); уменьшение (добавим важную переменную → снижается ); использование некоррелированных переменных: 1) использование теоретических ограничений на параметры модели, 2) использование внешних оценок.

 


Поделиться:



Популярное:

  1. V. Понятия моделирующая система и вторичная моделирующая система
  2. Актуальные проблемы когнитивной ортологии связаны с моделированием феномена нормы в языковой картине мира.
  3. Базовая модель в контексте формализованной схемы моделирования хозяйственного механизма
  4. Баланс сил, модели миропорядка и проблемы глобализации
  5. Баня, водка, гармонь и лосось: набросок модели «Имидж страны»
  6. Бренд-программа «Российское лицо Британского совета»: набросок модели «Своя страна для граждан зарубежья»
  7. Возникновение НЛП как области психотерапии. Фильтры и позиции восприятия. Способы моделирования. Репрезентативные системы.
  8. Вопрос № 1 Понятие общения. Структура речевой ситуации и условия успешности речевого акта. Модели общения: информационно-кодовая, интеракционная, инференционная.
  9. Выбор и обоснование модели для исследования технологического процесса упаривания послеспиртовой барды
  10. Выделение объектов модели данных и их характеристик
  11. Генерация базы данных в СУБД Access с помощью физической модели данных
  12. Гипотезы, теоремы, теории, концепции и модели


Последнее изменение этой страницы: 2016-08-24; Просмотров: 1823; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.018 с.)
Главная | Случайная страница | Обратная связь