Этапы эконометрического моделирования

Стр 1 из 20Следующая ⇒

1. Постановочный. Формулируется цель исследования (анализ, прогноз, управленческое решение), определяются экономические переменные модели).

2. Априорный. Анализируется изучаемое явление, формируется и формализуется информация известная до начала исследования.

3. Параметризация. Определяется вид модели, выражается в математической форме взаимосвязь между её переменными, формулируются исходные предпосылки и ограничения модели.

4. Информационный. Собирается необходимая статистическая информация.

5. Идентификация модели. Проводится статистический анализ модели, оценивается точность, значимость её параметров и модели в целом.

6. Верификация модели. Оцениваем адекватность модели, т.е. соответствие реальному экономическому процессу.

Лекция №2

Модели парной регрессии

Построение уравнения парной регрессии

Уравнение адекватно реальному моделируемому явлению или процессу в случае соблюдения следующих требований:

- cовокупность исходных данных должна быть однородной и математически описываться непрерывными функциями;

- наличие достаточно большого объема исследуемой выборочной совокупности;

- возможность описания моделируемого явления одним или несколькими уравнениями причинно-следственных связей;

- причинно-следственные связи между явлениями и процессами, по возможности, следует описывать линейной (или приводимой к линейной) формой зависимости;

- отсутствие количественных ограничений на параметры модели

- количественное выражение факторных признаков;

- постоянство территориальной и временной структуры изучаемой совокупности.

Теоретическая обоснованность моделей взаимосвязи явлений обеспечивается соблюдением определенных условий:

- все признаки и их совместные распределения должны подчиняться нормальному закону распределения;

- дисперсия моделируемого признака должна всё время оставаться постоянной при изменении значений факторного признака;

- отдельные наблюдения должны быть независимы, т.е. результаты, полученные в i наблюдении, не должны быть связаны с предыдущими и содержать информацию о последующих наблюдениях, а также влиять на них.

При линейной связи параметры ( и ) уравнения парной регрессии:

(2.1)

находятся с помощью метода наименьших квадратов. Суть метода заключается в минимизации суммы квадратов отклонений теоретических значений результативного признака ( ) от его фактических значений ( ):

(2.2)

Условие (2.2) выполняется при равенстве нулю частных производных по параметрам и :

(2.3)

Сократим каждое уравнение системы (2.3) на (-2), раскроем скобки и получим следующую систему нормальных уравнений:

(2.4)

Поделим каждое уравнение системы (2.4) на объём статистической совокупности (n), тогда упомянутую систему можно представить в более наглядном виде:

(2.5)

Из первого уравнения системы (1, 5) следует, что:

(2.6) Подставив полученное выражение во второе уравнение, получим:

. (2.7) Коэффициент корреляции определяется по формуле:

(2.8) Учитывая (1, 7) и (1, 8) получим

(2.9)

или . (2.10)

Зная значения r, и можно вычислить по выражениям (2.10) и (2.6) параметры и линейного уравнения регрессии.

Параметр , нельзя использовать для непосредственной оценки влияния факторного признака на результативный признак из-за различия единиц измерения исследуемых показателей. Для этих целей вычисляют значение среднего коэффициента эластичности и бета-коэффициент:

(2.11)

(2.12)

Коэффициент эластичности показывает, на сколько процентов изменяется результативный признак у при изменении факторного признака x на один процент.

Бета-коэффициент показывает, на какую часть своего среднего квадратического отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину своего среднего квадратического отклонения.

Статистический анализ модели

Оценка параметров парной регрессии выполняется исходя из следующих предпосылок. Допустим, что в генеральной совокупности связь между x и y линейна. Наличие случайных отклонений, вызванных воздействием на переменную y множества других, неучтенных в уравнении факторов и ошибок измерения, приведет к тому, что связь наблюдаемых величин и приобретает вид:

Здесь - случайные ошибки (отклонения, возмущения). Если были бы известны точные значения отклонений , то можно было бы рассчитать значения параметров и . Так как они неизвестны, то по наблюдениям и можно получить только оценки параметров и , которые сами являются случайными величинами в связи с тем, что соответствуют случайной выборке. Пусть - оценка параметра , - оценка параметра , тогда оцененное уравнение регрессии будет иметь вид:

(2.13)

Для того чтобы оценки и обладали адекватностью ряд остатков

должен удовлетворять следующим требованиям:

- математическое ожидание равно нулю (критерий нулевого среднего);

- величина является случайной переменной (критерий серий);

- значения независимы между собой (критерий Дарбина-Уотсона);

- дисперсия постоянна: для всех i, j (тест Гольдфельда-Квандта);

- остатки распределены по нормальному закону (свойство используется для проверки статистической значимости и построения доверительных интервалов при прогнозировании).

Известно, что если данные условия выполняются, то оценки, сделанные с помощью метода наименьших квадратов, обладают следующими свойствами:

- оценки являются несмещенными, т.е. математическое ожидание оценки каждого параметра равно его истинному значению:

Это вытекает из того, что и свидетельствует об отсутствии систематической ошибки в определении положения линии регрессии;

- оценки состоятельны, т.к. дисперсии оценок параметров при возрастании числа наблюдений стремятся к нулю: ; т.е. надежность оценки при увеличении выборки растёт;

- оценки эффективны, т.е. они имеют наименьшую дисперсию по сравнению с любыми другими оценками данного параметра.

Если предположения 3 и 4 нарушены, т.е. дисперсия возмущений непостоянна или значения связаны друг с другом, то свойства несмещености и состоятельности сохраняется, но свойства эффективности – нет.

Отметим, что аппроксимировать уравнением парной регрессии у на х, имеет смысл только в том случае, если существует достаточно тесная статистическая зависимость между случайными величинами и линейный коэффициент корреляции является значимым, что и имеет место в рассматриваемом примере.

Оценка качества построенной модели

Таблица 1.1

Формально качество модели определяется ее адекватностью и точностью. Эти свойства исследуются на основе анализа ряда остатков, значения которых вычислены по выражению

. Табл.1.1 содержит:

- остатки для задачи, исходные данные которой приведены в табл. 5.2;

- ранжированные значения ряда остатков;

- остатки за вычетом медианы остатков;

- стандартные остатки. Адекватность является более важной составляющей качества, но сначала рассмотрим характеристики точности и нормальности ряда остатков, так какнекоторые из них используются прирасчете различных критериев адекватности.

Характеристики точности

Под точностью понимается величина случайных ошибок. Сравнительный анализ точности имеет смысл только для адекватных моделей: среди них лучшей признается модель с меньшими значениями характеристик точности, к которым относятся:

- максимальная ошибка соответствует максимальному отклонению расчетных значений от фактических;

- средняя абсолютная ошибка

(2.14)

показывает, насколько в среднем отклоняются фактические значения от модели;

- средняя относительная ошибка

; (2.15)

- остаточная дисперсия

; (2.16)

- средняя квадратическая ошибка

. (2.17)

Средняя квадратическая ошибка является наиболее часто используемой характеристикой точности (что объясняется ее связью с остаточной дисперсией, которая играет центральную роль в регрессионном анализе). Значение средней квадратической ошибки всегда несколько больше значения средней абсолютной ошибки, но они имеют схожий смысл – характеризуют среднюю удаленность расчетных значений модели от фактических исходных данных. Обычно точность модели признается удовлетворительной если выполняется условие:

. (2.18)

К характеристикам точности можно отнести также множественный коэффициент детерминации

, (2.19) характеризующий долю дисперсии зависимой переменной, объясненной с помощью регрессии, и множественный коэффициент корреляции (индекс корреляции):

. (2.20)

В случае парной линейной регрессии значение множественного коэффициента корреляции совпадает с линейным коэффициентом корреляции.

Проверка нормальности ряда остатков может быть выполнена приближенно по условиям (7.2). В связи с тем, что каждый из относительных показателей формы распределения ( ) меньше 1, 5 эмпирическое распределение ряда остатков не противоречит нормальному.

Проверка адекватности модели

Проверка адекватности модели заключается в определении её значимости и наличии или отсутствии систематической ошибки.

Сначала проверяется значимость параметров уравнения. Если, например, параметр является незначимым, то необходимо с помощью метода наименьших квадратов получить соответствующее уравнение из которого определяется значение параметра .

Проверка значимости осуществляется на основе t – критерия Стьюдента, т.е. проверяется гипотеза о том, что параметр, измеряющий связь, равен нулю.

Средняя ошибка параметра равна:

, (2.21)

а для параметра :

. (2.22)

Расчетные значения t- критерия вычисляются по формуле:

(2.23) Параметр считается значимым, если . Значение определяется по табл. 6 Практикума. Входами в табл. являются уровень значимости и количество степеней свободы , где - количество факторов в уравнении регрессии. При и . Следовательно, в рассматриваемом примере параметры являются значимыми.

Параметр лежит в пределах ; ,

а параметр - ; .

Значимость уравнения регрессии в целом определяется с помощью F – критерия Фишера:

(2.24)

Расчетное значение F сопоставляется скритическим для числа степеней свободы при заданном уровне значимости (например, ), где . .

Если , то уравнение считается значимым.

Проверка наличия или отсутствия систематической ошибки

Проверка свойства нулевого среднего.

Рассчитывается среднее значение ряда остатков

. (2.25)

Если оно близко к нулю, то считается, что модель не содержит систематической ошибки и адекватна по критерию нулевого среднего, иначе – модель неадекватна по данному критерию. Если средняя ошибка не точно равна нулю, то для определения степени ее близости к нулю используется t – критерий Стьюдента. Расчётное значение критерия вычисляется по формуле

(2.26)

и сравнивается с критическим .Если выполняется неравенство , то модель неадекватна по данному критерию.

Проверка случайности ряда остатков.

Осуществляется по методу серий. Серией называется последовательность расположенных подряд значений ряда остатков, для которых разность (графа 4 табл. 7.4) имеет один и тот же знак, где - медиана ряда остатков, значение которой рассчитано по данным графы 3 упомянутой таблицы.

Если модель хорошо отражает исследуемую зависимость, то она часто пересекает линию графика исходных данных и тогда серий много, а их длина невелика. Иначе – серий мало и некоторые из них включают большое число членов.

В качестве серий рассматриваются расположенные подряд ошибки с одинаковыми знаками. Далее подсчитывается число серий и длина максимальной из них . Полученные значения сравниваются с критическими

(2.27) (2.28) (квадратные скобки означают округление вниз до ближайшего целого).

Если выполняется система неравенств:

, (2.29) то модель признается адекватной по критерию случайности, если хотя бы одно из неравенств нарушено, то модель признается неадекватной по данному критерию.

Проверка независимости последовательных остатков.

Является важнейшим критерием адекватности модели и осуществляется с помощью коэффициента Дарбина-Уотсона:

. (2.30) Для рядов с тесной взаимосвязью между последовательными значениями остатков значение близко к нулю, что свидетельствует о том, что закономерная составляющая не полностью отражена в модели и частично закономерность присуща ряду остатков, т.е. модель неадекватна исходному процессу.

Если последовательные остатки независимы, то близко к 2. Это свидетельствует о хорошем качестве модели и чистой фильтрации закономерной составляющей.

При отрицательной автокорреляции остатков (строго периодичном чередовании их знаков) близко к 4.

Для проверки существенности положительной автокорреляции остатков значение сравнивается с и из табл. 2 Приложения к лекции:

если , то гипотеза о независимости остатков отвергается и модель признается неадекватной по критерию независимости остатков;

если , то гипотеза о независимости остатков принимается и модель признается адекватной по данному критерию(в рассматриваемом примере );

если , то значение критерия лежит в области неопределенности.

Если , то возникает предположение об отрицательной автокорреляции остатков, и тогда с критическими значениями сравниваются не , а и делаются аналогичные выводы.

Проверка постоянства дисперсии остатков.

Если на графике остатков они укладываются в симметричную относительно нулевой линии полосу шириной (модуль стандартных остатков меньше 3) и не имеют как положительной так и отрицательной тенденций, то дисперсии ошибок наблюдений можно считать постоянными.

Значения стандартных остатков вычисляются по формуле

, где и приведены в графе 5 табл.1.1.

Рис. 2.1. График стандартных остатков

Кроме визуальной оценки постоянства дисперсии существуют и более точные методы, например, тест Гольдфельда-Квандта. Суть теста заключается в следующем. Все n наблюдений упорядочиваются по возрастанию значений независимой переменной (x) и производится оценка параметров регрессий для первых и последних наблюдений с помощью метода наименьших квадратов. Для наибольшей мощности теста рекомендуется выбирать значение порядка n/3. Далее вычисляется расчётное значение статистики Фишера

, (2.31)

где - суммы квадратов остатков для первых и последних наблюдений соответственно. Далее задаётся уровень значимости и определяется с помощъю статистических таблиц. .

Если то делается вывод о постоянстве дисперсии.

По совокупности четырех критериев делается вывод о принципиальной возможности использования модели: если модель адекватна по критериям постоянства дисперсий и нулевого среднего и хотя бы по одному из двух других критериев, то она может быть принята для использования, хотя и не признается полностью адекватной.

Построение доверительных интервалов

Конечной целью моделирования является оценка или прогнозирование показателя Yв зависимости от значений X.

Прогноз подразделяется на точечный и интервальный и обычно осуществляется не более чем на одну треть размаха:

где - точка прогноза.

В точечном прогнозе показателя Yдля определяется лишь одно число, которое представляет условное среднее и (при выполнении предпосылок регрессионного анализа) наиболее вероятное значение с точки зрения закономерности, отраженной в модели. В таком прогнозе не учитываются отклонения от закономерностей в результате воздействия случайных и неучтенных факторов.

В интервальном прогнозе отклонения от закономерностей в результате случайных воздействий определяются границами доверительных интервалов.

Доверительным интервалом называется такой интервал, которому с заданной степенью вероятности (называемой доверительной) принадлежат истинные значения показателя при условии, что закономерности, отраженные в модели, не противоречат развитию как на участке наблюдения, так и на участке оценки (или в периоде упреждения прогноза).

Случайные отклонения от модели проявляются в виде ошибок. Поэтому при определении границ, доверительных интервалов необходимо определить из чего складываются возможные ошибки моделирования, оценки и прогнозирования. При условии, что модель адекватна, и возможные ошибки носят случайный характер, следует различать два основных источника ошибок:

ошибки аппроксимации (рассеяние наблюдений относительно модели);

ошибки оценок параметров модели.

Наличие ошибок первого типа очевидно даже визуально. Величина ошибок аппроксимации характеризуется остаточной дисперсией или средней квадратической ошибкой . Распределение этих ошибок для адекватных моделей – нормально (нормальность ошибок – одно из условий адекватности).

Ошибки оценок параметров модели обусловлены тем, что их параметры, фиксированные в модели как однозначные, в действительности являются случайными величинами, так как они оцениваются на основе фактических данных, в которых присутствует как закономерная, так и случайная составляющие. Средние значения этих оценок при выполнении предпосылок регрессионного анализа соответствует истинным значениям параметров, а их дисперсии зависят от остаточной дисперсии, числа наблюдений и вида модели.

Общее среднее квадратическое отклонение истинных значений от расчетных может быть представлено как:

(2.32)

а в точке прогноза:

(2.33)

Исходя из предпосылки нормального распределения остатков границы доверительных интервалов определяются по формулам:

(2.34)

Анализ выражений (2.32, 2.33) позволяет для моделей парной регрессии сделать вывод, что доверительные интервалы тем шире, чем:

- больше остаточная дисперсия (менее точна модель);

- значение больше удалено от среднего значения (см. рис. 2.32);

- сложнее форма модели;

- больше заданная доверительная вероятность.

Обобщая полученные результаты, можно сделать вывод, что построенная модель обладает хорошим качеством, т.е. она достаточно точна и адекватна исследуемому процессу по всем перечисленным ранее критериям. Учитывая еще и нормальность ряда остатков можно осуществлять точечный и интервальный прогнозы. В связи с этим табл. 2.2 приведены данные для построения доверительных интервалов.

Массив дополнен двумя значениями: и , которые выделены жирным шрифтом. Значения: - ширина доверительного интервала; - нижняя граница доверительного интервала; - верхняя граница доверительного интервала вычислены по формулам (2.34) с доверительной вероятностью 0, 975 и соответствующим ей коэффициентом доверия Стьюдента 2, 315. Выбор распределения Стьюдента обусловлен достаточно большим значением относительного показателя асимметрии остатков.

График доверительных интервалов и график их ширины приведены на рис. 2.1 и 2.2.

Рис. 2.2.График доверительных интервалов

Рис. 2.3. График ширины доверительных интервалов

С учетом нормального распределения остатков при среднем значении ВТО фирм равном 1067, 43 млн. долл. с вероятностью 0, 975 прогнозируемые таможенные платежи в бюджет составят от 27, 61 до 31, 37 млн. долл., при этом условное среднее (наиболее вероятный объём поступлений) ожидается 29, 49 млн. долл.

Лекция №3

Множественная регрессия.

Мультиколлинеарность данных

Множественной регрессией называют уравнение связи с несколькими независимыми переменными:

(3.1)

Переменная у называется зависимой, объясняемой или результативным признаком. – независимые, объясняющие переменные или факторные признаки (факторы).

Соответствующая регрессионная модель имеет вид

, (3.2)

где ε -ошибка модели, являющаяся случайной величиной.

Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доминирующий фактор и необходимо учитывать влияние нескольких факторов. Например, объем выпуска продукции определяется величиной основных и оборотных средств, численностью персонала, уровнем менеджмента и т. д., уровень спроса зависит не только от цены, но и от имеющихся у населения денежных средств.

Основная цель множественной регрессии – построить модель с несколькими факторами и определить при этом влияние каждого фактора в отдельности, а также их совместное воздействие на изучаемый показатель.

Постановка задачи множественной регрессии: по имеющимся данным n наблюдений (табл. 3.1) за совместным изменением p+1 параметра y и и (( ); i=1, 2, ..., n; j=1, 2, …, p) необходимо определить аналитическую зависимость , наилучшим образом описывающую данные наблюдений.

Таблица 3.1

Результаты наблюдений

				…
				…
				…
…	…	…	…	…	…
n				…

Каждая строка таблицы содержит p +1 число и представляет собой результат одного наблюдения. Наблюдения различаются условиями их проведения. Вопрос о том, какую зависимость следует считать наилучшей, решается на основе какого-либо критерия. В качестве такого критерия обычно используется минимум суммы квадратов отклонений расчетных или модельных значений результативного показателя от наблюдаемых значений

Построение уравнения множественной регрессии предполагает решение двух задач:

1) спецификация модели;

2) оценка параметров выбранной модели.

В свою очередь, и спецификация модели включает в себя решение двух задач:

– отбор p факторов xj, подлежащих включению в модель;

– выбор вида аналитической зависимости .

Для измерения степени тесноты связи между изменениями величины результативного признака (у) и изменениями значений факторных признаков определяется коэффициент множественной (совокупной) корреляции (R). Для случая зависимости результативного признака от двух факторных признаков формула совокупного коэффициента корреляции имеет вид:

(3.3)

Если число факторов-признаков более двух, то совокупный

коэффициент корреляции определяется следующим образом:

(3.4)

где — матрица парных коэффициентов корреляции (см. табл. 3.1);

— соответствует матрице парных коэффициентов корреляции ( ) без верхней строки и первого столбца.

Величина называется коэффициентом детерминации, она показывает, в какой мере вариация результативного признака обусловлена влиянием признаков-факторов, включенных в уравнение множественной зависимости.

Величина совокупного коэффициента корреляции изменяется в пределах от 0 до 1 и численно не может быть меньше, чем любой из образующих его парных коэффициентов корреляции. Чем ближе он к единице, тем меньше роль неучтенных в модели факторов и тем более оснований считать, что параметры регрессионной модели отражают степень эффективности включенных в нее факторов.

Для оценки существенности (значимости) совокупного коэффициента корреляции используется критерий F-Фишера.

Для этого по формуле (7.43) определяется F-расчетное, которое сравнивается с табличным значением при заданном уровне значимости (например, ). Если , то с вероятностью 0, 95 можно утверждать, что связь между результативным и факторными признаками существенна.

12 3 4 5 6 7 8 9 10 Следующая ⇒