Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Этапы эконометрического моделирования



1. Постановочный. Формулируется цель исследования (анализ, прогноз, управленческое решение), определяются экономические переменные модели).

2. Априорный. Анализируется изучаемое явление, формируется и формализуется информация известная до начала исследования.

3. Параметризация. Определяется вид модели, выражается в математической форме взаимосвязь между её переменными, формулируются исходные предпосылки и ограничения модели.

4. Информационный. Собирается необходимая статистическая информация.

5. Идентификация модели. Проводится статистический анализ модели, оценивается точность, значимость её параметров и модели в целом.

6. Верификация модели. Оцениваем адекватность модели, т.е. соответствие реальному экономическому процессу.

 

Лекция №2

Модели парной регрессии

Построение уравнения парной регрессии

Уравнение адекватно реальному моделируемому явлению или процессу в случае соблюдения следующих требований:

- cовокупность исходных данных должна быть однородной и математически описываться непрерывными функциями;

- наличие достаточно большого объема исследуемой выбороч­ной совокупности;

- возможность описания моделируемого явления одним или несколькими уравнениями причинно-следственных связей;

- причинно-следственные связи между явлениями и процесса­ми, по возможности, следует описывать линейной (или при­водимой к линейной) формой зависимости;

- отсутствие количественных ограничений на параметры модели

- количественное выражение факторных признаков;

- постоянство территориальной и временной структуры изуча­емой совокупности.

Теоретическая обоснованность моделей взаимосвязи явлений обеспечивается соблюдением определенных условий:

- все признаки и их совместные распределения должны подчиняться нормальному закону распределения;

- дисперсия моделируемого признака должна всё время оставаться постоянной при изменении значений факторного признака;

- отдельные наблюдения должны быть независимы, т.е. результаты, полученные в i наблюдении, не должны быть связаны с предыдущими и содержать информацию о последующих наблюдениях, а также влиять на них.

При линейной связи параметры ( и ) уравнения парной регрессии:

(2.1)

находятся с помощью метода наименьших квадратов. Суть метода заключается в минимизации суммы квадратов отклонений теоретических значений результативного признака ( ) от его фактических значений ( ):

(2.2)

Условие (2.2) выполняется при равенстве нулю частных производных по параметрам и :

(2.3)

Сократим каждое уравнение системы (2.3) на (-2), раскроем скобки и получим следующую систему нормальных уравнений:

(2.4)

Поделим каждое уравнение системы (2.4) на объём статистической совокупности (n), тогда упомянутую систему можно представить в более наглядном виде:

(2.5)

Из первого уравнения системы (1, 5) следует, что:

(2.6) Подставив полученное выражение во второе уравнение, получим:

. (2.7) Коэффициент корреляции определяется по формуле:

(2.8) Учитывая (1, 7) и (1, 8) получим

(2.9)

или . (2.10)

Зная значения r, и можно вычислить по выражениям (2.10) и (2.6) параметры и линейного уравнения регрессии.

Параметр , нельзя использовать для непосредственной оценки влияния факторного признака на результативный при­знак из-за различия единиц измерения исследуемых показате­лей. Для этих целей вычисляют значение среднего коэффициента эластичности и бета-коэффициент:

(2.11)

(2.12)

Коэффициент эластичности показывает, на сколь­ко процентов изменяется результативный признак у при изменении факторного признака x на один процент.

Бета-коэффициент показывает, на какую часть своего среднего квадратического отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину своего среднего квадратического отклонения.

 

Статистический анализ модели

Оценка параметров парной регрессии выполняется исходя из следующих предпосылок. Допустим, что в генеральной совокупности связь между x и y линейна. Наличие случайных отклонений, вызванных воздействием на переменную y множества других, неучтенных в уравнении факторов и ошибок измерения, приведет к тому, что связь наблюдаемых величин и приобретает вид:

Здесь - случайные ошибки (отклонения, возмущения). Если были бы известны точные значения отклонений , то можно было бы рассчитать значения параметров и . Так как они неизвестны, то по наблюдениям и можно получить только оценки параметров и , которые сами являются случайными величинами в связи с тем, что соответствуют случайной выборке. Пусть - оценка параметра , - оценка параметра , тогда оцененное уравнение регрессии будет иметь вид:

(2.13)

Для того чтобы оценки и обладали адекватностью ряд остатков

должен удовлетворять следующим требованиям:

- математическое ожидание равно нулю (критерий нулевого среднего);

- величина является случайной переменной (критерий серий);

- значения независимы между собой (критерий Дарбина-Уотсона);

- дисперсия постоянна: для всех i, j (тест Гольдфельда-Квандта);

- остатки распределены по нормальному закону (свойство используется для проверки статистической значимости и построения доверительных интервалов при прогнозировании).

Известно, что если данные условия выполняются, то оценки, сделанные с помощью метода наименьших квадратов, обладают следующими свойствами:

- оценки являются несмещенными, т.е. математическое ожидание оценки каждого параметра равно его истинному значению:

Это вытекает из того, что и свидетельствует об отсутствии систематической ошибки в определении положения линии регрессии;

- оценки состоятельны, т.к. дисперсии оценок параметров при возрастании числа наблюдений стремятся к нулю: ; т.е. надежность оценки при увеличении выборки растёт;

- оценки эффективны, т.е. они имеют наименьшую дисперсию по сравнению с любыми другими оценками данного параметра.

Если предположения 3 и 4 нарушены, т.е. дисперсия возмущений непостоянна или значения связаны друг с другом, то свойства несмещености и состоятельности сохраняется, но свойства эффективности – нет.

Отметим, что аппроксимировать уравнением парной регрессии у на х, имеет смысл только в том случае, если существует достаточно тесная статистическая зависимость между случайными величинами и линейный коэффициент корреляции является значимым, что и имеет место в рассматриваемом примере.

Оценка качества построенной модели

Таблица 1.1

    Формально качество модели определяется ее адекватностью и точностью. Эти свойства исследуются на основе анализа ряда остатков, значения которых вычислены по выражению . Табл.1.1 содержит: - остатки для задачи, исходные данные которой приведены в табл. 5.2; - ранжированные значения ряда остатков; - остатки за вычетом медианы остатков; - стандартные остатки. Адекватность является более важной составляющей качества, но сначала рассмотрим характеристики точности и нормальности ряда остатков, так какнекоторые из них используются прирасчете различных критериев адекватности.  

Характеристики точности

Под точностью понимается величина случайных ошибок. Сравнительный анализ точности имеет смысл только для адекватных моделей: среди них лучшей признается модель с меньшими значениями характеристик точности, к которым относятся:

- максимальная ошибка соответствует максимальному отклонению расчетных значений от фактических;

- средняя абсолютная ошибка

(2.14)

показывает, насколько в среднем отклоняются фактические значения от модели;

- средняя относительная ошибка

; (2.15)

- остаточная дисперсия

; (2.16)

- средняя квадратическая ошибка

. (2.17)

Средняя квадратическая ошибка является наиболее часто используемой характеристикой точности (что объясняется ее связью с остаточной дисперсией, которая играет центральную роль в регрессионном анализе). Значение средней квадратической ошибки всегда несколько больше значения средней абсолютной ошибки, но они имеют схожий смысл – характеризуют среднюю удаленность расчетных значений модели от фактических исходных данных. Обычно точность модели признается удовлетворительной если выполняется условие:

. (2.18)

К характеристикам точности можно отнести также множественный коэффициент детерминации

, (2.19) характеризующий долю дисперсии зависимой переменной, объясненной с помощью регрессии, и множественный коэффициент корреляции (индекс корреляции):

. (2.20)

В случае парной линейной регрессии значение множественного коэффициента корреляции совпадает с линейным коэффициентом корреляции.

Проверка нормальности ряда остатков может быть выполнена приближенно по условиям (7.2). В связи с тем, что каждый из относительных показателей формы распределения ( ) меньше 1, 5 эмпирическое распределение ряда остатков не противоречит нормальному.

 

Проверка адекватности модели

Проверка адекватности модели заключается в определении её значимости и наличии или отсутствии систематической ошибки.

Сначала проверяется значимость параметров уравнения. Если, например, параметр является незначимым, то необходимо с помощью метода наименьших квадратов получить соответствующее уравнение из которого определяется значение параметра .

Проверка значимости осуществляется на основе t – критерия Стьюдента, т.е. проверяется гипотеза о том, что параметр, измеряющий связь, равен нулю.

Средняя ошибка параметра равна:

, (2.21)

а для параметра :

. (2.22)

Расчетные значения t- критерия вычисляются по формуле:

(2.23) Параметр считается значимым, если . Значение определяется по табл. 6 Практикума. Входами в табл. являются уровень значимости и количество степеней свободы , где - количество факторов в уравнении регрессии. При и . Следовательно, в рассматриваемом примере параметры являются значимыми.

Параметр лежит в пределах ; ,

а параметр - ; .

Значимость уравнения регрессии в целом определяется с помощью F – критерия Фишера:

(2.24)

Расчетное значение F сопоставляется скритическим для числа степеней свободы при заданном уровне значимости (например, ), где . .

Если , то уравнение считается значимым.

 

Проверка наличия или отсутствия систематической ошибки

Проверка свойства нулевого среднего.

Рассчитывается среднее значение ряда остатков

. (2.25)

Если оно близко к нулю, то считается, что модель не содержит систематической ошибки и адекватна по критерию нулевого среднего, иначе – модель неадекватна по данному критерию. Если средняя ошибка не точно равна нулю, то для определения степени ее близости к нулю используется t – критерий Стьюдента. Расчётное значение критерия вычисляется по формуле

(2.26)

и сравнивается с критическим .Если выполняется неравенство , то модель неадекватна по данному критерию.

 

Проверка случайности ряда остатков.

Осуществляется по методу серий. Серией называется последовательность расположенных подряд значений ряда остатков, для которых разность (графа 4 табл. 7.4) имеет один и тот же знак, где - медиана ряда остатков, значение которой рассчитано по данным графы 3 упомянутой таблицы.

Если модель хорошо отражает исследуемую зависимость, то она часто пересекает линию графика исходных данных и тогда серий много, а их длина невелика. Иначе – серий мало и некоторые из них включают большое число членов.

В качестве серий рассматриваются расположенные подряд ошибки с одинаковыми знаками. Далее подсчитывается число серий и длина максимальной из них . Полученные значения сравниваются с критическими

(2.27) (2.28) (квадратные скобки означают округление вниз до ближайшего целого).

Если выполняется система неравенств:

, (2.29) то модель признается адекватной по критерию случайности, если хотя бы одно из неравенств нарушено, то модель признается неадекватной по данному критерию.

Проверка независимости последовательных остатков.

Является важнейшим критерием адекватности модели и осуществляется с помощью коэффициента Дарбина-Уотсона:

. (2.30) Для рядов с тесной взаимосвязью между последовательными значениями остатков значение близко к нулю, что свидетельствует о том, что закономерная составляющая не полностью отражена в модели и частично закономерность присуща ряду остатков, т.е. модель неадекватна исходному процессу.

Если последовательные остатки независимы, то близко к 2. Это свидетельствует о хорошем качестве модели и чистой фильтрации закономерной составляющей.

При отрицательной автокорреляции остатков (строго периодичном чередовании их знаков) близко к 4.

Для проверки существенности положительной автокорреляции остатков значение сравнивается с и из табл. 2 Приложения к лекции:

если , то гипотеза о независимости остатков отвергается и модель признается неадекватной по критерию независимости остатков;

если , то гипотеза о независимости остатков принимается и модель признается адекватной по данному критерию(в рассматриваемом примере );

если , то значение критерия лежит в области неопределенности.

Если , то возникает предположение об отрицательной автокорреляции остатков, и тогда с критическими значениями сравниваются не , а и делаются аналогичные выводы.

Проверка постоянства дисперсии остатков.

Если на графике остатков они укладываются в симметричную относительно нулевой линии полосу шириной (модуль стандартных остатков меньше 3) и не имеют как положительной так и отрицательной тенденций, то дисперсии ошибок наблюдений можно считать постоянными.

Значения стандартных остатков вычисляются по формуле

, где и приведены в графе 5 табл.1.1.

 

Рис. 2.1. График стандартных остатков

 

Кроме визуальной оценки постоянства дисперсии существуют и более точные методы, например, тест Гольдфельда-Квандта. Суть теста заключается в следующем. Все n наблюдений упорядочиваются по возрастанию значений независимой переменной (x) и производится оценка параметров регрессий для первых и последних наблюдений с помощью метода наименьших квадратов. Для наибольшей мощности теста рекомендуется выбирать значение порядка n/3. Далее вычисляется расчётное значение статистики Фишера

, (2.31)

где - суммы квадратов остатков для первых и последних наблюдений соответственно. Далее задаётся уровень значимости и определяется с помощъю статистических таблиц. .

Если то делается вывод о постоянстве дисперсии.

По совокупности четырех критериев делается вывод о принципиальной возможности использования модели: если модель адекватна по критериям постоянства дисперсий и нулевого среднего и хотя бы по одному из двух других критериев, то она может быть принята для использования, хотя и не признается полностью адекватной.

Построение доверительных интервалов

Конечной целью моделирования является оценка или прогнозирование показателя Yв зависимости от значений X.

Прогноз подразделяется на точечный и интервальный и обычно осуществляется не более чем на одну треть размаха:

,

где - точка прогноза.

В точечном прогнозе показателя Yдля определяется лишь одно число, которое представляет условное среднее и (при выполнении предпосылок регрессионного анализа) наиболее вероятное значение с точки зрения закономерности, отраженной в модели. В таком прогнозе не учитываются отклонения от закономерностей в результате воздействия случайных и неучтенных факторов.

В интервальном прогнозе отклонения от закономерностей в результате случайных воздействий определяются границами доверительных интервалов.

Доверительным интервалом называется такой интервал, которому с заданной степенью вероятности (называемой доверительной) принадлежат истинные значения показателя при условии, что закономерности, отраженные в модели, не противоречат развитию как на участке наблюдения, так и на участке оценки (или в периоде упреждения прогноза).

Случайные отклонения от модели проявляются в виде ошибок. Поэтому при определении границ, доверительных интервалов необходимо определить из чего складываются возможные ошибки моделирования, оценки и прогнозирования. При условии, что модель адекватна, и возможные ошибки носят случайный характер, следует различать два основных источника ошибок:

ошибки аппроксимации (рассеяние наблюдений относительно модели);

ошибки оценок параметров модели.

Наличие ошибок первого типа очевидно даже визуально. Величина ошибок аппроксимации характеризуется остаточной дисперсией или средней квадратической ошибкой . Распределение этих ошибок для адекватных моделей – нормально (нормальность ошибок – одно из условий адекватности).

Ошибки оценок параметров модели обусловлены тем, что их параметры, фиксированные в модели как однозначные, в действительности являются случайными величинами, так как они оцениваются на основе фактических данных, в которых присутствует как закономерная, так и случайная составляющие. Средние значения этих оценок при выполнении предпосылок регрессионного анализа соответствует истинным значениям параметров, а их дисперсии зависят от остаточной дисперсии, числа наблюдений и вида модели.

Общее среднее квадратическое отклонение истинных значений от расчетных может быть представлено как:

(2.32)

а в точке прогноза:

(2.33)

Исходя из предпосылки нормального распределения остатков границы доверительных интервалов определяются по формулам:

(2.34)

 

Анализ выражений (2.32, 2.33) позволяет для моделей парной регрессии сделать вывод, что доверительные интервалы тем шире, чем:

- больше остаточная дисперсия (менее точна модель);

- значение больше удалено от среднего значения (см. рис. 2.32);

- сложнее форма модели;

- больше заданная доверительная вероятность.

Обобщая полученные результаты, можно сделать вывод, что построенная модель обладает хорошим качеством, т.е. она достаточно точна и адекватна исследуемому процессу по всем перечисленным ранее критериям. Учитывая еще и нормальность ряда остатков можно осуществлять точечный и интервальный прогнозы. В связи с этим табл. 2.2 приведены данные для построения доверительных интервалов.

Массив дополнен двумя значениями: и , которые выделены жирным шрифтом. Значения: - ширина доверительного интервала; - нижняя граница доверительного интервала; - верхняя граница доверительного интервала вычислены по формулам (2.34) с доверительной вероятностью 0, 975 и соответствующим ей коэффициентом доверия Стьюдента 2, 315. Выбор распределения Стьюдента обусловлен достаточно большим значением относительного показателя асимметрии остатков.

График доверительных интервалов и график их ширины приведены на рис. 2.1 и 2.2.

 

 

 

Рис. 2.2.График доверительных интервалов

 

 

Рис. 2.3. График ширины доверительных интервалов

 

С учетом нормального распределения остатков при среднем значении ВТО фирм равном 1067, 43 млн. долл. с вероятностью 0, 975 прогнозируемые таможенные платежи в бюджет составят от 27, 61 до 31, 37 млн. долл., при этом условное среднее (наиболее вероятный объём поступлений) ожидается 29, 49 млн. долл.

 

Лекция №3

Множественная регрессия.

Мультиколлинеарность данных

Множественной регрессией называют уравнение связи с несколькими независимыми переменными:

(3.1)

Переменная у называется зависимой, объясняемой или результативным признаком. независимые, объясняющие переменные или факторные признаки (факторы).

Соответствующая регрессионная модель имеет вид

, (3.2)

где ε -ошибка модели, являющаяся случайной величиной.

Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доминирующий фактор и необходимо учитывать влияние нескольких факторов. Например, объем выпуска продукции определяется величиной основных и оборотных средств, численностью персонала, уровнем менеджмента и т. д., уровень спроса зависит не только от цены, но и от имеющихся у населения денежных средств.

Основная цель множественной регрессии – построить модель с несколькими факторами и определить при этом влияние каждого фактора в отдельности, а также их совместное воздействие на изучаемый показатель.

Постановка задачи множественной регрессии: по имеющимся данным n наблюдений (табл. 3.1) за совместным изменением p+1 параметра y и и (( ); i=1, 2, ..., n; j=1, 2, …, p) необходимо определить аналитическую зависимость , наилучшим образом описывающую данные наблюдений.

Таблица 3.1

Результаты наблюдений

 

 
n

 

Каждая строка таблицы содержит p +1 число и представляет собой результат одного наблюдения. Наблюдения различаются условиями их проведения. Вопрос о том, какую зависимость следует считать наилучшей, решается на основе какого-либо критерия. В качестве такого критерия обычно используется минимум суммы квадратов отклонений расчетных или модельных значений результативного показателя от наблюдаемых значений

Построение уравнения множественной регрессии предполагает решение двух задач:

1) спецификация модели;

2) оценка параметров выбранной модели.

В свою очередь, и спецификация модели включает в себя решение двух задач:

– отбор p факторов xj, подлежащих включению в модель;

– выбор вида аналитической зависимости .

Для измерения степени тесноты связи между изменениями величины результативного признака (у) и изменениями значений факторных признаков определяется коэффициент множественной (совокупной) корреляции (R). Для случая зависимости результативного признака от двух факторных признаков формула совокупного коэффициента корреляции имеет вид:

(3.3)

Если число факторов-признаков более двух, то совокупный

коэффициент корреляции определяется следующим образом:

(3.4)

где — матрица парных коэффициентов корреляции (см. табл. 3.1);

— соответствует матрице парных коэффициентов корреляции ( ) без верхней строки и первого столбца.

Величина называется коэффициентом детерминации, она показывает, в какой мере вариация результативного признака обусловлена влиянием признаков-факторов, включенных в уравнение множественной зависимости.

Величина совокупного коэффициента корреляции изменяется в пределах от 0 до 1 и численно не может быть меньше, чем любой из образующих его парных коэффициентов корреляции. Чем ближе он к единице, тем меньше роль неучтенных в модели факторов и тем более оснований считать, что параметры регрессионной модели отражают степень эффективности включенных в нее факторов.

Для оценки существенности (значимости) совокупного коэффициента корреляции используется критерий F-Фишера.

Для этого по формуле (7.43) определяется F-расчетное, которое сравнивается с табличным значением при заданном уровне значимости (например, ). Если , то с вероятностью 0, 95 можно утверждать, что связь между результативным и факторными признаками существенна.

 


Поделиться:



Популярное:

Последнее изменение этой страницы: 2016-03-25; Просмотров: 1039; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.103 с.)
Главная | Случайная страница | Обратная связь