Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Прогнозирование на основе множественной корреляционно-регрессионной модели с помощью пакета STATGRAFICS



В системе STATGRAFICS реализовано несколько методов корреляционно-регрессионного анализа, позволяющих установить связь между результативным признаком и одним или более факторными переменными. В основном модуле Relate (Связи) представлены:

- Simple Regression (простая регрессия);

- Polynomia l Regression (полиномиальная регрессия);

- Multiple Regression (множественная регрессия) В этом модуле реализована возможность пошаговой регрессии.

С целью исключения мультиколлинеарных факторов построим множественную линейную модель, используя пошаговую регрессию.

Матрица исходной информации представлена в Приложении Б. В качестве исходной информации, используются следующие показатели:

У− средняя обеспеченность населения жильём всего м2 общей площади на одного жителя;

Х2 − средняя стоимость строительства за 1 м ., руб (в сопоставимых ценах);

Х3 − денежные доходы в расчете на душу населения в среднем за месяц, тыс.руб. (в сопоставимых ценах);

Х4 − удельный вес частного жилого фонда, %;

Х5 − удельный вес числа семей, состоящих на учете для получения жилья, в общем числе семей, %;

Х6 − удельный вес семей улучшивших свои жилищные условия в % от числа семей, состоящих на учете на получение жилья;

Х7 − капитально отремонтированных жилых домов за год, всего тыс. м , общей площади;

Х8 − индекс потребительских цен (декабрь текущего года в % к декабрю предыдущего года);

Х9 − численность безработных, человек;

Х10 − ввод в действие жилых домов, тыс. м2 общей площади;

Х11 − инвестиции в жилища млн руб. (в сопоставимых ценах).

В главном меню выбираем модуль Relate (связи) и находим процедуру Multiple Regression (множественная регрессия). Система STATGRAFICS покажет входную панель множественной регрессии (рисунок 4.2.1)

Dependent Variable – зависимая переменная; Independent Variable – независимые переменные; Select – выбрать; Weights – веса.

Рисунок 4.2.1 – Входная панель процедуры Multiple Regression (множественная регрессия)

После нажатия клавиши OK появится окно с предварительными результатами анализа (рисунок 4.2.2).

 

Multiple Regression Analysis

-----------------------------------------------------------------------------

Dependent variable: Y

---------------------------------------------------------------------------

Standard T

Parameter Estimate Error Statistic P-Value

-----------------------------------------------------------------------------

CONSTANT 10, 861 2, 001 5, 428 0, 012

X1 -0, 138 0, 571 -0, 241 0, 825

X10 0, 539 0, 359 1, 501 0, 230

X2 1, 808 2, 109 0, 857 0, 454

X3 0, 127 0, 026 4, 976 0, 016

X4 0, 098 0, 040 2, 431 0, 093

X5 -0, 169 0, 174 -0, 969 0, 404

X6 0, 000 0, 000 0, 338 0, 757

X7 -0, 001 0, 001 -1, 354 0, 269

X8 0, 000 0, 000 -0, 979 0, 399

X9 0, 003 0, 003 1, 088 0, 356

-----------------------------------------------------------------------------

Analysis of Variance

-----------------------------------------------------------------------------

Source Sum of Squares Df Mean Square F-Ratio P-Value

-----------------------------------------------------------------------------

Model 27, 413 10 2, 741 80, 89 0, 002

Residual 0, 102 3 0, 034

-----------------------------------------------------------------------------

Total (Corr.) 27, 5143 13

R-squared = 99, 6305 percent

R-squared (adjusted for d.f.) = 98, 399 percent

Standard Error of Est. = 0, 184

Mean absolute error = 0, 069

Durbin-Watson statistic = 2, 875

 

Рисунок 4.2.2 − Предварительные результаты построения модели

Щелкнем правой кнопкой мыши, появится меню, в котором нужно выбрать Analysis Options (опции анализа) для вызова пошаговой регрессии.

Процедура пошаговой регрессии дает возможность автоматического подбора адекватной модели. При этом используются два основных подхода: Forward Selection (включения факторов) или Backward Selection (исключения факторов) (рисунок 4.2.3).

Fit – подбирать; All Variable – все переменные; Forward Selection − включение факторов; Backward Selection − исключение Факторов; Constant in Model − свободный член модели; F-to-Enter – включение; F-to-Remove – исключение; Max Steps – максимальное число шагов; Display – показать; Final Model Only – только заключительная модель; All Steps – все шаги.

Рисунок 4.2.3 – Окно Multiple Regression Option (опции множественной регрессии). Модель пошаговой регрессии

 

Флажок в поле Constant in Model (свободный член модели) предполагает наличие в модели свободного члена. Установлено также, что F-критерий для включения (F-to-Enter) и исключения (F-to-Remove) независимых переменных равен 4. Максимальное количество шагов при построении модели (Max Steps) − 50. Флажок в поле All Steps (все шаги) требует вывод на экран всех промежуточных этапов построения уравнения регрессии.

Отметив поле Forward Selection (включения факторов) и Final Model Only получим результаты заключительной модели (промежуточные этапы построения модели не показаны) (рисунок 4.2.4).

 

Multiple Regression Analysis

-----------------------------------------------------------------------------

Dependent variable: Y

-----------------------------------------------------------------------------

Standard T

Parameter Estimate Error Statistic P-Value

-----------------------------------------------------------------------------

CONSTANT 9, 994 0, 955 10, 469 0, 000

X10 0, 156 0, 036 4, 330 0, 002

X2 3, 809 1, 029 3, 702 0, 005

X3 0, 120 0, 0126 9, 521 0, 000

X4 0, 069 0, 025 2, 739 0, 023

-----------------------------------------------------------------------------

Analysis of Variance

-----------------------------------------------------------------------------

Source Sum of Squares Df Mean Square F-Ratio P-Value

-----------------------------------------------------------------------------

Model 27, 272 4 6, 818 252, 92 0, 000

Residual 0, 243 9 0, 027

-----------------------------------------------------------------------------

Total (Corr.) 27, 5143 13

 

R-squared = 99, 118 percent

R-squared (adjusted for d.f.) = 98, 726 percent

Standard Error of Est. = 0, 164

Mean absolute error = 0, 098

Durbin-Watson statistic = 2, 026

 

Stepwise regression

-------------------

Method: forward selection

F-to-enter: 4, 0

F-to-remove: 4, 0

Final model selected

 

Рисунок 4.2.4 − Окончательные результаты выбора модели

Основные результаты расчета сведены в две таблицы: в первой отражены результаты регрессионного анализа, во второй представлен дисперсионный анализ. Внизу показана дополнительная информация: R-squared – коэффициент детерминации; R-squared (adjusted for d.f.) − коэффициент детерминации, приведенный с учетом степеней свободы; Standard Error of Est. (SE) – стандартная ошибка оценивания; Mean absoluteerror –стандартная ошибка оценивания; Durbin-Watsonstatistic – статистика Дарбина− Уотсона.

На основе частных F-критериев из 10 независимых переменных в модель средней обеспеченности населения жильём всего м2 общей площади на одного жителя включены 4 фактора: средняя стоимость строительства за 1 м2, руб (в сопоставимых ценах) (Х2); денежные доходы в расчете на душу населения в среднем за месяц, тыс.руб. (в сопоставимых ценах) (Х3); удельный вес частного жилого фонда, % (Х4); ввод в действие жилых домов, тыс. м2 общей площади; (Х10). Построена следующая модель:

Y=9, 994 + 3, 809*X2 + 0, 120*X3 + 0, 069*X4+ 0, 156*X10

Все отобранные факторы статистически значимы, так как фактический t-критерий Стьюдента больше табличного (приложение В). Об этом свидетельствует графа 5 таблицы рисунка 4.2.4 (P-Value), в которой отражены вероятности наиболее существенных факторов динамики средней обеспеченности населения жильём.

Дисперсионный анализ ( AnalysisofVariance ) позволяет получить F-критерий для оценки адекватности модели. Представленные на рисунке 4.2.4 данные свидетельствуют о хорошей адекватности модели. Фактический критерий Фишера (F-Ratio), равный 252, 92, в 69, 7 раза больше табличного значения. Стандартная ошибка остатков (StandardErrorofEst.) составляет 0, 164. Приведенный с учетом степеней свободы коэффициент детерминации (R-squared(adjustedford.f.) равный 98, 726% свидетельствует о том, что вариация средней обеспеченности населения жильём на 98, 7% обусловлена включенными в модель факторами. Статистика Дарбина–Уотсона (Durbin-Watsonstatistic), составляющая 2, 026, говорит об отсутствии автокорреляции (рисунок 4.2.5 и приложение А).

2, 026

есть 0, 69? 1, 97 нет 2, 03? 3, 31 есть

(+) (-)

Рисунок 4.2.5 − Таблица определения наличия или отсутствия автокорреляции на основе критерия Дарбина − Уотсона

На рисунке 4.2.6 приведено также неполное содержание окна статистического консультанта ( Stat Advisor ). Внизу рисунка дополнительно дан русский перевод.

Таким образом, по всем проверенным критериям полученное уравнение регрессии имеет статистически значимые коэффициенты, сама модель является типичной, без автокорреляции в остатках, следовательно, данное уравнение можно использовать для получения достоверных и точных прогнозов.

 

The StatAdvisor

The output shows the results of fitting a multiple linear regression model to describe the relationship between Y and 10 independent variables. The equation of the fitted model is

 

Y = 9, 994 + 0, 156*X10 + 3, 809*X2 + 0, 120*X3 + 0, 069*X4

 

Since the P-value in the ANOVA table is less than 0.01, there is a tatistically significant relationship between the variables at the 99% confidence level.

The R-Squared statistic indicates that the model as fitted explains 99, 1183% of the variability in Y. The adjusted R-squared statistic, which is more suitable for comparing models with different numbers of independent variables, is 98, 7264%. The standard error of the estimate shows the standard deviation of the residuals to be 0, 164184. This value can be used to construct prediction limits for new observations by selecting the Reports option from the text menu.The mean absolute error (MAE) of 0, 0978855 is the average value of the residuals. The Durbin-Watson (DW) statistic tests the residuals to determine if there is any significant correlation based on the order in which they occur in your data file. Since the DW value is greater than 1.4, there is probably not any serious autocorrelation in the

residuals.

 

Вывод показывает результаты построения модели линейной регрессии между Y и 10

независимыми переменными. Уравнение регрессионной модели имеет вид:

 

Y = 9, 994 + 0, 156*X10 + 3, 809*X2 + 0, 120*X3 + 0, 069*X4

 

Так как P-значение в таблице дисперсионного анализа меньше чем 0.01, то имеется статистически существенная связь между анализируемыми переменными при уровне доверия 99%.

Коэффициент детерминации (R-Squared) указывает, что 99, 118% дисперсии зависимой переменной Y объясняется включенными в модель факторами. Скорректированный R-squared, который является более подходящим для сравнения моделей с различным количеством независимых переменных, равен 98, 726%. Стандартная ошибка оценивания, означающая среднеквадратическое отклонение остатков, равна 0, 164. это значение может быть использовано при расчете доверительных интервалов для новых наблюдений при выборе пункта Reports из табличных опций.

Средняя абсолютная ошибка (MAE) – 0, 098 – средняя оценка residuals (остатков). Статистика Дарбина – Уотсона (DW) свидетельствует об отсутствии автокорреляции остатков.

 

Рисунок 4.2.6 − Окно Stat Advisor с русским переводом.

Дадим интерпретацию коэффициентов уравнения. Из построенной модели видно, что при увеличении средней стоимости строительства за 1 м2, на 1 рубль показатель обеспеченности возрастает на 3, 809 м2; при росте среднедушевых месячных доходов населения на 1 тыс. руб. средняя обеспеченность населения края жильем увеличится на 0, 12 м2 на человека; при увеличении удельного веса частного жилого фонда на 1% обеспеченность возрастает на 0, 069 м2; при повышении ввода в действие жилых домов 1 тыс. м2 общей площади средняя обеспеченность увеличивается на 0, 156 м2.

Расчет коэффициентов эластичности , -коэффициентов (стандартизованные коэффициенты регрессии), -коэффициентов позволит определить степень влияния факторной переменной на результат.

Рассмотрим принципы анализа степени влияния факторов на нашем примере (таблица 4.2.1.) ( ; ; ).

Таблица 4.2.1 − Расчет коэффициентов эластичности, -коэффициентов, -коэффициентов

Фак-торы Ранг факторов
3, 809 0, 304 0, 01 -0, 237 0, 018 0, 065 -0, 004
0, 120 43, 807 188, 5 -0, 789 10, 670 0, 296 -8, 493
0, 069 17, 929 36, 50 -0, 970 1, 188 0, 070 -1, 163
0, 156 0, 851 3, 49 -0, 300 0, 256 0, 008 -0, 078

Если сопоставить значения коэффициентов эластичности, то можно видеть, что главным фактором изменения результативного показателя является фактор Х3 (денежные доходы в расчете на душу населения в среднем за месяц, тыс.руб.). При его увеличении на 1% У (средняя обеспеченность населения жильём всего м2 общей площади на одного жителя) возрастает на 0, 296%. Вторым по силе влияния на результат является фактор Х4 (удельный вес частного жилого фонда, %). С ростом этой переменной на 1% средняя обеспеченность жильем на 0, 07%. Третьим – фактор Х2 (средняя стоимость строительства за 1 м2, руб), с увеличением этого фактора на 1% средняя обеспеченность возрастает на 0, 065%. Самым незначительным влиянием обладает переменная Х10 (ввод в действие жилых домов, тыс. м2 общей площади), с ростом этого фактора на 1% обеспеченность жильем населения края увеличивается на 0, 008%.

Сравнение позволяет сделать вывод, что с учетом уровня колеблемости факторов наибольшие резервы в изменении результативного показателя заложены в увеличении фактора Х3.

Сопоставление значений коэффициентов позволяет сделать вывод, что наибольшую долю влияния имеет фактор Х3. Роль этого фактора в вариации средней обеспеченности населения жильем составляет 849, 3% общего влияния двух факторов на результативный показатель. Доля влияния второго фактора Х4 значительно уступает и составляет 116, 3%, а третьего фактора – 7, 8%

Следовательно, наибольшие возможности в изменении выручки от реализации У связаны с изменением факторов Х3 (денежные доходы в расчете на душу населения в среднем за месяц, тыс. руб.) и Х4 (удельный вес частного жилого фонда, %)

Для построения прогноза по множественной корреляционно-регрессионной модели построим отдельно для каждого фактора его регрессию на фактор времени, другими словами построим трендовые модели, а также прогноз для каждого фактора. Выбор формы тренда и построение прогноза проводим в соответствии с методикой, описанной ранее (раздел 3.5)(таблица 4.2.2).

Таблица 4.2.2 − Трендовые модели для факторов, включенных во множественную корреляционно-регрессионную модель

Факторы Трендовая модель

Используя трендовые модели, представленные в таблице 4.2.2 построим точечные и интервальные прогнозы по исследуемым факторам (таблица 4.2.3).

Таблица 4.2.3 − Прогнозные значения факторов, включенных во множественную корреляционно-регрессионную модель.

Год прогноза Точечный прогноз Граница прогноза
нижняя верхняя
Х2
0, 515 0, 365 0, 728
0, 557 0, 391 0, 795
0, 602 0, 418 0, 868
0, 651 0, 447 0, 948
Х3
63, 729 56, 124 71, 334
65, 271 56, 534 74, 008
66, 605 56, 423 76, 787
67, 730 55, 809 79, 651
Х4
7, 725 2, 443 13, 008
6, 365 0, 943 11, 787
Продолжение таблицы 4.2.3
5, 044 -0, 569 10, 578
3, 644 -2, 382 9, 382
Х10
1, 949 -1, 864 5, 763
2, 861 -1, 519 7, 241
3, 916 -1, 189 9, 021
5, 115 -0, 962 11, 091

 

Полученные прогнозные значения подставим в уравнение множественной регрессии:

Y=9, 994 + 3, 809*X2 + 0, 120*X3 + 0, 069*X4+ 0, 156*X10.

В результате подстановки получим прогнозные значения, которые приведены в таблице 4.2.4.

Таблица 4.2.4 – Прогнозные значения и доверительные интервалы средней обеспеченности жильем жителей Хабаровского края, полученные на основе множественной регрессии

Год прогноза Точечный прогноз Граница прогноза
нижняя верхняя
20, 419 17, 979 23, 096
20, 812 18, 078 23, 816
21, 217 18, 117 24, 621
21, 629 18, 065 25, 511

 

Результаты прогноза показывают, что население Хабаровского края в ближайшем будущем ожидает повышение средней обеспеченности жильем (в основном за счет роста денежных доходов). К 2009 году средняя обеспеченность жильем составит 21, 63 м2 на человека, т.е. возрастет по сравнению с 2005 годов на 8, 7% (среднегодовой темп прироста составит 2, 1%).

Контрольные вопросы к разделу 4

1. Охарактеризуйте основные этапы прогнозирования по множественной корреляционно-регрессионной модели.

2. С помощью каких критериев можно оценить адекватность множественной корреляционно-регрессионной модели?

3. В чем сущность пошаговой регрессии? Какие виды пошаговой регрессии реализованы в пакете STATGRAFICS?

4. На основе каких показателей можно определить наиболее значимые факторы влияния на результат?

5. Каким образом проводится прогноз по множественной регрессии в системе STATGRAFICS?


Поделиться:



Популярное:

Последнее изменение этой страницы: 2017-03-11; Просмотров: 943; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.045 с.)
Главная | Случайная страница | Обратная связь