Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Этапы эконометрического моделированияСтр 1 из 20Следующая ⇒
1. Постановочный. Формулируется цель исследования (анализ, прогноз, управленческое решение), определяются экономические переменные модели). 2. Априорный. Анализируется изучаемое явление, формируется и формализуется информация известная до начала исследования. 3. Параметризация. Определяется вид модели, выражается в математической форме взаимосвязь между её переменными, формулируются исходные предпосылки и ограничения модели. 4. Информационный. Собирается необходимая статистическая информация. 5. Идентификация модели. Проводится статистический анализ модели, оценивается точность, значимость её параметров и модели в целом. 6. Верификация модели. Оцениваем адекватность модели, т.е. соответствие реальному экономическому процессу.
Лекция №2 Модели парной регрессии Построение уравнения парной регрессии Уравнение адекватно реальному моделируемому явлению или процессу в случае соблюдения следующих требований: - cовокупность исходных данных должна быть однородной и математически описываться непрерывными функциями; - наличие достаточно большого объема исследуемой выборочной совокупности; - возможность описания моделируемого явления одним или несколькими уравнениями причинно-следственных связей; - причинно-следственные связи между явлениями и процессами, по возможности, следует описывать линейной (или приводимой к линейной) формой зависимости; - отсутствие количественных ограничений на параметры модели - количественное выражение факторных признаков; - постоянство территориальной и временной структуры изучаемой совокупности. Теоретическая обоснованность моделей взаимосвязи явлений обеспечивается соблюдением определенных условий: - все признаки и их совместные распределения должны подчиняться нормальному закону распределения; - дисперсия моделируемого признака должна всё время оставаться постоянной при изменении значений факторного признака; - отдельные наблюдения должны быть независимы, т.е. результаты, полученные в i наблюдении, не должны быть связаны с предыдущими и содержать информацию о последующих наблюдениях, а также влиять на них. При линейной связи параметры ( и ) уравнения парной регрессии: (2.1) находятся с помощью метода наименьших квадратов. Суть метода заключается в минимизации суммы квадратов отклонений теоретических значений результативного признака ( ) от его фактических значений ( ): (2.2) Условие (2.2) выполняется при равенстве нулю частных производных по параметрам и : (2.3) Сократим каждое уравнение системы (2.3) на (-2), раскроем скобки и получим следующую систему нормальных уравнений: (2.4) Поделим каждое уравнение системы (2.4) на объём статистической совокупности (n), тогда упомянутую систему можно представить в более наглядном виде: (2.5) Из первого уравнения системы (1, 5) следует, что: (2.6) Подставив полученное выражение во второе уравнение, получим: . (2.7) Коэффициент корреляции определяется по формуле: (2.8) Учитывая (1, 7) и (1, 8) получим (2.9) или . (2.10) Зная значения r, и можно вычислить по выражениям (2.10) и (2.6) параметры и линейного уравнения регрессии. Параметр , нельзя использовать для непосредственной оценки влияния факторного признака на результативный признак из-за различия единиц измерения исследуемых показателей. Для этих целей вычисляют значение среднего коэффициента эластичности и бета-коэффициент: (2.11) (2.12) Коэффициент эластичности показывает, на сколько процентов изменяется результативный признак у при изменении факторного признака x на один процент. Бета-коэффициент показывает, на какую часть своего среднего квадратического отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину своего среднего квадратического отклонения.
Статистический анализ модели Оценка параметров парной регрессии выполняется исходя из следующих предпосылок. Допустим, что в генеральной совокупности связь между x и y линейна. Наличие случайных отклонений, вызванных воздействием на переменную y множества других, неучтенных в уравнении факторов и ошибок измерения, приведет к тому, что связь наблюдаемых величин и приобретает вид: Здесь - случайные ошибки (отклонения, возмущения). Если были бы известны точные значения отклонений , то можно было бы рассчитать значения параметров и . Так как они неизвестны, то по наблюдениям и можно получить только оценки параметров и , которые сами являются случайными величинами в связи с тем, что соответствуют случайной выборке. Пусть - оценка параметра , - оценка параметра , тогда оцененное уравнение регрессии будет иметь вид: (2.13) Для того чтобы оценки и обладали адекватностью ряд остатков должен удовлетворять следующим требованиям: - математическое ожидание равно нулю (критерий нулевого среднего); - величина является случайной переменной (критерий серий); - значения независимы между собой (критерий Дарбина-Уотсона); - дисперсия постоянна: для всех i, j (тест Гольдфельда-Квандта); - остатки распределены по нормальному закону (свойство используется для проверки статистической значимости и построения доверительных интервалов при прогнозировании). Известно, что если данные условия выполняются, то оценки, сделанные с помощью метода наименьших квадратов, обладают следующими свойствами: - оценки являются несмещенными, т.е. математическое ожидание оценки каждого параметра равно его истинному значению: Это вытекает из того, что и свидетельствует об отсутствии систематической ошибки в определении положения линии регрессии; - оценки состоятельны, т.к. дисперсии оценок параметров при возрастании числа наблюдений стремятся к нулю: ; т.е. надежность оценки при увеличении выборки растёт; - оценки эффективны, т.е. они имеют наименьшую дисперсию по сравнению с любыми другими оценками данного параметра. Если предположения 3 и 4 нарушены, т.е. дисперсия возмущений непостоянна или значения связаны друг с другом, то свойства несмещености и состоятельности сохраняется, но свойства эффективности – нет. Отметим, что аппроксимировать уравнением парной регрессии у на х, имеет смысл только в том случае, если существует достаточно тесная статистическая зависимость между случайными величинами и линейный коэффициент корреляции является значимым, что и имеет место в рассматриваемом примере. Оценка качества построенной модели Таблица 1.1
Характеристики точности Под точностью понимается величина случайных ошибок. Сравнительный анализ точности имеет смысл только для адекватных моделей: среди них лучшей признается модель с меньшими значениями характеристик точности, к которым относятся: - максимальная ошибка соответствует максимальному отклонению расчетных значений от фактических; - средняя абсолютная ошибка (2.14) показывает, насколько в среднем отклоняются фактические значения от модели; - средняя относительная ошибка ; (2.15) - остаточная дисперсия ; (2.16) - средняя квадратическая ошибка . (2.17) Средняя квадратическая ошибка является наиболее часто используемой характеристикой точности (что объясняется ее связью с остаточной дисперсией, которая играет центральную роль в регрессионном анализе). Значение средней квадратической ошибки всегда несколько больше значения средней абсолютной ошибки, но они имеют схожий смысл – характеризуют среднюю удаленность расчетных значений модели от фактических исходных данных. Обычно точность модели признается удовлетворительной если выполняется условие: . (2.18) К характеристикам точности можно отнести также множественный коэффициент детерминации , (2.19) характеризующий долю дисперсии зависимой переменной, объясненной с помощью регрессии, и множественный коэффициент корреляции (индекс корреляции): . (2.20) В случае парной линейной регрессии значение множественного коэффициента корреляции совпадает с линейным коэффициентом корреляции. Проверка нормальности ряда остатков может быть выполнена приближенно по условиям (7.2). В связи с тем, что каждый из относительных показателей формы распределения ( ) меньше 1, 5 эмпирическое распределение ряда остатков не противоречит нормальному.
Проверка адекватности модели Проверка адекватности модели заключается в определении её значимости и наличии или отсутствии систематической ошибки. Сначала проверяется значимость параметров уравнения. Если, например, параметр является незначимым, то необходимо с помощью метода наименьших квадратов получить соответствующее уравнение из которого определяется значение параметра . Проверка значимости осуществляется на основе t – критерия Стьюдента, т.е. проверяется гипотеза о том, что параметр, измеряющий связь, равен нулю. Средняя ошибка параметра равна: , (2.21) а для параметра : . (2.22) Расчетные значения t- критерия вычисляются по формуле: (2.23) Параметр считается значимым, если . Значение определяется по табл. 6 Практикума. Входами в табл. являются уровень значимости и количество степеней свободы , где - количество факторов в уравнении регрессии. При и . Следовательно, в рассматриваемом примере параметры являются значимыми. Параметр лежит в пределах ; , а параметр - ; . Значимость уравнения регрессии в целом определяется с помощью F – критерия Фишера: (2.24) Расчетное значение F сопоставляется скритическим для числа степеней свободы при заданном уровне значимости (например, ), где . . Если , то уравнение считается значимым.
Проверка наличия или отсутствия систематической ошибки Проверка свойства нулевого среднего. Рассчитывается среднее значение ряда остатков . (2.25) Если оно близко к нулю, то считается, что модель не содержит систематической ошибки и адекватна по критерию нулевого среднего, иначе – модель неадекватна по данному критерию. Если средняя ошибка не точно равна нулю, то для определения степени ее близости к нулю используется t – критерий Стьюдента. Расчётное значение критерия вычисляется по формуле (2.26) и сравнивается с критическим .Если выполняется неравенство , то модель неадекватна по данному критерию.
Проверка случайности ряда остатков. Осуществляется по методу серий. Серией называется последовательность расположенных подряд значений ряда остатков, для которых разность (графа 4 табл. 7.4) имеет один и тот же знак, где - медиана ряда остатков, значение которой рассчитано по данным графы 3 упомянутой таблицы. Если модель хорошо отражает исследуемую зависимость, то она часто пересекает линию графика исходных данных и тогда серий много, а их длина невелика. Иначе – серий мало и некоторые из них включают большое число членов. В качестве серий рассматриваются расположенные подряд ошибки с одинаковыми знаками. Далее подсчитывается число серий и длина максимальной из них . Полученные значения сравниваются с критическими (2.27) (2.28) (квадратные скобки означают округление вниз до ближайшего целого). Если выполняется система неравенств: , (2.29) то модель признается адекватной по критерию случайности, если хотя бы одно из неравенств нарушено, то модель признается неадекватной по данному критерию. Проверка независимости последовательных остатков. Является важнейшим критерием адекватности модели и осуществляется с помощью коэффициента Дарбина-Уотсона: . (2.30) Для рядов с тесной взаимосвязью между последовательными значениями остатков значение близко к нулю, что свидетельствует о том, что закономерная составляющая не полностью отражена в модели и частично закономерность присуща ряду остатков, т.е. модель неадекватна исходному процессу. Если последовательные остатки независимы, то близко к 2. Это свидетельствует о хорошем качестве модели и чистой фильтрации закономерной составляющей. При отрицательной автокорреляции остатков (строго периодичном чередовании их знаков) близко к 4. Для проверки существенности положительной автокорреляции остатков значение сравнивается с и из табл. 2 Приложения к лекции: если , то гипотеза о независимости остатков отвергается и модель признается неадекватной по критерию независимости остатков; если , то гипотеза о независимости остатков принимается и модель признается адекватной по данному критерию(в рассматриваемом примере ); если , то значение критерия лежит в области неопределенности. Если , то возникает предположение об отрицательной автокорреляции остатков, и тогда с критическими значениями сравниваются не , а и делаются аналогичные выводы. Проверка постоянства дисперсии остатков. Если на графике остатков они укладываются в симметричную относительно нулевой линии полосу шириной (модуль стандартных остатков меньше 3) и не имеют как положительной так и отрицательной тенденций, то дисперсии ошибок наблюдений можно считать постоянными. Значения стандартных остатков вычисляются по формуле , где и приведены в графе 5 табл.1.1.
Рис. 2.1. График стандартных остатков
Кроме визуальной оценки постоянства дисперсии существуют и более точные методы, например, тест Гольдфельда-Квандта. Суть теста заключается в следующем. Все n наблюдений упорядочиваются по возрастанию значений независимой переменной (x) и производится оценка параметров регрессий для первых и последних наблюдений с помощью метода наименьших квадратов. Для наибольшей мощности теста рекомендуется выбирать значение порядка n/3. Далее вычисляется расчётное значение статистики Фишера , (2.31) где - суммы квадратов остатков для первых и последних наблюдений соответственно. Далее задаётся уровень значимости и определяется с помощъю статистических таблиц. . Если то делается вывод о постоянстве дисперсии. По совокупности четырех критериев делается вывод о принципиальной возможности использования модели: если модель адекватна по критериям постоянства дисперсий и нулевого среднего и хотя бы по одному из двух других критериев, то она может быть принята для использования, хотя и не признается полностью адекватной. Построение доверительных интервалов Конечной целью моделирования является оценка или прогнозирование показателя Yв зависимости от значений X. Прогноз подразделяется на точечный и интервальный и обычно осуществляется не более чем на одну треть размаха: , где - точка прогноза. В точечном прогнозе показателя Yдля определяется лишь одно число, которое представляет условное среднее и (при выполнении предпосылок регрессионного анализа) наиболее вероятное значение с точки зрения закономерности, отраженной в модели. В таком прогнозе не учитываются отклонения от закономерностей в результате воздействия случайных и неучтенных факторов. В интервальном прогнозе отклонения от закономерностей в результате случайных воздействий определяются границами доверительных интервалов. Доверительным интервалом называется такой интервал, которому с заданной степенью вероятности (называемой доверительной) принадлежат истинные значения показателя при условии, что закономерности, отраженные в модели, не противоречат развитию как на участке наблюдения, так и на участке оценки (или в периоде упреждения прогноза). Случайные отклонения от модели проявляются в виде ошибок. Поэтому при определении границ, доверительных интервалов необходимо определить из чего складываются возможные ошибки моделирования, оценки и прогнозирования. При условии, что модель адекватна, и возможные ошибки носят случайный характер, следует различать два основных источника ошибок: ошибки аппроксимации (рассеяние наблюдений относительно модели); ошибки оценок параметров модели. Наличие ошибок первого типа очевидно даже визуально. Величина ошибок аппроксимации характеризуется остаточной дисперсией или средней квадратической ошибкой . Распределение этих ошибок для адекватных моделей – нормально (нормальность ошибок – одно из условий адекватности). Ошибки оценок параметров модели обусловлены тем, что их параметры, фиксированные в модели как однозначные, в действительности являются случайными величинами, так как они оцениваются на основе фактических данных, в которых присутствует как закономерная, так и случайная составляющие. Средние значения этих оценок при выполнении предпосылок регрессионного анализа соответствует истинным значениям параметров, а их дисперсии зависят от остаточной дисперсии, числа наблюдений и вида модели. Общее среднее квадратическое отклонение истинных значений от расчетных может быть представлено как: (2.32) а в точке прогноза: (2.33) Исходя из предпосылки нормального распределения остатков границы доверительных интервалов определяются по формулам: (2.34)
Анализ выражений (2.32, 2.33) позволяет для моделей парной регрессии сделать вывод, что доверительные интервалы тем шире, чем: - больше остаточная дисперсия (менее точна модель); - значение больше удалено от среднего значения (см. рис. 2.32); - сложнее форма модели; - больше заданная доверительная вероятность. Обобщая полученные результаты, можно сделать вывод, что построенная модель обладает хорошим качеством, т.е. она достаточно точна и адекватна исследуемому процессу по всем перечисленным ранее критериям. Учитывая еще и нормальность ряда остатков можно осуществлять точечный и интервальный прогнозы. В связи с этим табл. 2.2 приведены данные для построения доверительных интервалов. Массив дополнен двумя значениями: и , которые выделены жирным шрифтом. Значения: - ширина доверительного интервала; - нижняя граница доверительного интервала; - верхняя граница доверительного интервала вычислены по формулам (2.34) с доверительной вероятностью 0, 975 и соответствующим ей коэффициентом доверия Стьюдента 2, 315. Выбор распределения Стьюдента обусловлен достаточно большим значением относительного показателя асимметрии остатков. График доверительных интервалов и график их ширины приведены на рис. 2.1 и 2.2.
Рис. 2.2.График доверительных интервалов
Рис. 2.3. График ширины доверительных интервалов
С учетом нормального распределения остатков при среднем значении ВТО фирм равном 1067, 43 млн. долл. с вероятностью 0, 975 прогнозируемые таможенные платежи в бюджет составят от 27, 61 до 31, 37 млн. долл., при этом условное среднее (наиболее вероятный объём поступлений) ожидается 29, 49 млн. долл.
Лекция №3 Множественная регрессия. Мультиколлинеарность данных Множественной регрессией называют уравнение связи с несколькими независимыми переменными: (3.1) Переменная у называется зависимой, объясняемой или результативным признаком. – независимые, объясняющие переменные или факторные признаки (факторы). Соответствующая регрессионная модель имеет вид , (3.2) где ε -ошибка модели, являющаяся случайной величиной. Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доминирующий фактор и необходимо учитывать влияние нескольких факторов. Например, объем выпуска продукции определяется величиной основных и оборотных средств, численностью персонала, уровнем менеджмента и т. д., уровень спроса зависит не только от цены, но и от имеющихся у населения денежных средств. Основная цель множественной регрессии – построить модель с несколькими факторами и определить при этом влияние каждого фактора в отдельности, а также их совместное воздействие на изучаемый показатель. Постановка задачи множественной регрессии: по имеющимся данным n наблюдений (табл. 3.1) за совместным изменением p+1 параметра y и и (( ); i=1, 2, ..., n; j=1, 2, …, p) необходимо определить аналитическую зависимость , наилучшим образом описывающую данные наблюдений. Таблица 3.1 Результаты наблюдений
Каждая строка таблицы содержит p +1 число и представляет собой результат одного наблюдения. Наблюдения различаются условиями их проведения. Вопрос о том, какую зависимость следует считать наилучшей, решается на основе какого-либо критерия. В качестве такого критерия обычно используется минимум суммы квадратов отклонений расчетных или модельных значений результативного показателя от наблюдаемых значений Построение уравнения множественной регрессии предполагает решение двух задач: 1) спецификация модели; 2) оценка параметров выбранной модели. В свою очередь, и спецификация модели включает в себя решение двух задач: – отбор p факторов xj, подлежащих включению в модель; – выбор вида аналитической зависимости . Для измерения степени тесноты связи между изменениями величины результативного признака (у) и изменениями значений факторных признаков определяется коэффициент множественной (совокупной) корреляции (R). Для случая зависимости результативного признака от двух факторных признаков формула совокупного коэффициента корреляции имеет вид: (3.3) Если число факторов-признаков более двух, то совокупный коэффициент корреляции определяется следующим образом: (3.4) где — матрица парных коэффициентов корреляции (см. табл. 3.1); — соответствует матрице парных коэффициентов корреляции ( ) без верхней строки и первого столбца. Величина называется коэффициентом детерминации, она показывает, в какой мере вариация результативного признака обусловлена влиянием признаков-факторов, включенных в уравнение множественной зависимости. Величина совокупного коэффициента корреляции изменяется в пределах от 0 до 1 и численно не может быть меньше, чем любой из образующих его парных коэффициентов корреляции. Чем ближе он к единице, тем меньше роль неучтенных в модели факторов и тем более оснований считать, что параметры регрессионной модели отражают степень эффективности включенных в нее факторов. Для оценки существенности (значимости) совокупного коэффициента корреляции используется критерий F-Фишера. Для этого по формуле (7.43) определяется F-расчетное, которое сравнивается с табличным значением при заданном уровне значимости (например, ). Если , то с вероятностью 0, 95 можно утверждать, что связь между результативным и факторными признаками существенна.
Популярное:
|
Последнее изменение этой страницы: 2016-03-25; Просмотров: 1039; Нарушение авторского права страницы