МНОЖЕСТВЕННЫЙ РЕГРЕССИОНЫЫЙ АНАЛИЗ

Цель практической работы

Цель: освоение методики проведения регрессионного анализа.

1. Краткая теоретическая часть. Основные понятия, определения, формулы

Множественная регрессия

Множественный регрессионный анализ является развитием парного регрессионного анализа применительно к случаям, когда зависимая переменная гипотетически связана с более чем одной независимой переменной. Большая часть анализа будет непосредственным расширением парной регрессионной модели, однако появляются две новые проблемы. Во-первых, при оценке влияния данной независимой переменной на зависимую переменную необходимо решить проблему разграничения ее воздействия и воздействий других независимых переменных. Во-вторых, возникает проблема спецификации модели. Часто предполагается, что несколько переменных могут оказывать влияние на зависимую переменную, с другой стороны, некоторые переменные могут не подходить для модели. Необходимо решить, какие из них следует включить в уравнение регрессии, а какие - исключить из него. В данной расчетной работе предполагается, что спецификация модели правильна.

Для проведения регрессионного анализа из (к+1)-мерной, генеральной совокупности (Y, X1, X2,..., Xj,..., Xk) берется выборка объемом п и каждое 1-ое наблюдение (объект) характеризуется значениями переменных (y_nx_ll> Xy_t..., x_lk), где х jj - значение j-ой переменной для i-ro наблюдения (i=l, 2,..„n), у_j-. - значение результативного признака для i-ro наблюдения.

Наиболее часто используемая множественная линейная модель регрессионного анализа имеет вид:

(1)

где ε i - случайные ошибки наблюдения, независимые между собой, имеют нулевую среднюю и дисперсию α ².

Отметим, что модель справедлива для всех i = 1, 2,.., n, линейна относительно неизвестных параметров ₄ и

аргументов.

Как следует из модели коэффициент регрессии β ₁показывает, на какую величину в среднем изменится результативный признак Y, если переменную Xj увеличить на единицу измерения, т е. является нормативным коэффициентом.

В матричной форме регрессионная модель имеет вид:

Y=Хβ +ε (2)

где Y - случайный вектор - столбец размерности (n x 1) наблюдаемых значений результативного признака (у1, у2,..., уп);

X - матрица размерности [п* (к+1)] наблюдаемых значений аргументов. Элемент матрицы Xij рассматривается как неслучайная величина (i =l, 2,..., n; j-=0, l, 2,...k, Xot — I);

β -вектор - столбец размерности [(k+l) х 1] неизвестных, подлежащих оценке параметров (коэффициентов регрессии) модели; ε -случайный- вектор - столбец размерности (n x 1) ошибок наблюдений (остатков). Компоненты вектора ε _i независимы между собой, имеют нормальный закон распределения с нулевым математическим ожиданием и неизвестной дисперсией о² На практике рекомендуется, чтобы n превышало к не менее, чем в три раза.

В матричной модели единицы в первом столбце матрицы.призваны обеспечить наличие свободного члена в исходной модели. Здесь предполагается, что существует переменная хо, которая во всех наблюдениях принимает значения равные 1.

Основная задача регрессионного анализа заключается в нахождении по выборке объемом n, оценки неизвестных коэффициентов регрессии β _{0 …} β _k модели или вектора β .

Так как, в регрессионном анализе xj рассматриваются как неслучайные величины, a Mε _i =0, то уравнение регрессии имеет

(3)

для всех i= 1, 2,..., n, или в матричной форме:

Y=Xβ (4)

где Y - вектор-столбец с элементами y1,..., yi,..., yn.

Для оценки вектора β наиболее часто используют метод наименьших квадратов (МНК), согласно которому в качестве оценки принимают вектор b, который минимизирует сумму квадратов отклонения наблюдаемых значений yi от модельных значений yi, т. е. квадратичную форму:

(5)

Дифференцируя, с учетом и квадратичную форму Q по β 0, …β к и приравнивая производные нулю, получим систему нормальных уравнений:

для i=0, 1, …k (6)

решая которую и получаем вектор опенок b, где b-(bo, bl, bk)

Согласно методу наименьших квадратов, вектор оценок коэффициентов регрессии получается по формуле:

X^T - транспонированная матрица Х;

(X^rХ)^-1 - матрица, обратная матрице Х^ТX

Зная вектор оценок коэффициентов регрессии b, найдем оценку у, уравнения регрессии:

уi = bo ⁺ b1.Xi1 +b2Xi21+...+bkXjk, Или в матричном виде: у ~ Xβ, где y=(Yl, Y2_...YN)

Оценка ковариационной матрицы коэффициентов регрессии вектора b определяется из выражения:

где

(7)

Учитывая, что на главной диагонали ковариационной матрицы находятся дисперсии коэффициентов рецессии, имеем:

(8)

Качество оценки: коэффициент R²

Цель регрессионного анализа состоит в объяснении поведения зависимой переменной у. В любой данной выборке у оказывается сравнительно низким в одних наблюдениях и сравнительно высоким в других. Разброс значений у в любой выборке можно суммарно описать с помощью выборочной дисперсии Var(y).

После построения уравнения регрессии можно разбить значение уi в каждом наблюдении на две составляющих - у\ и еi:

(9)

Величина уi = расчетное значение у в наблюдении i.Остаток еi есть расхождение между фактическим и спрогнозированным значениями величины у.

Используя (25), разложим дисперсию у:

Var(y) = Var(y + ё) = Var(y) + Var(e) + 2Cov(y, e) (10)

Так как Cov(yi, e) должна быть равна нулю, получим:

Var(y) = Var(y) + Var(e) (11)

Согласно (27), коэффициент детерминации

(12)

что равносильно

(13)

Максимальное значение коэффициента R² равно единице. Это происходит в том случае, когда линия регрессии точно соответствует всем наблюдениям, так что y’t=yt для всех i и все остатки равны нулю. Тогда Var(y) = Var(y), Var(e)=0 и R²=l/

Если в выборке отсутствует видимая связь между у и x, то коэффициент R² будет близок к нулю.

При прочих равных условиях желательно, чтобы коэффициент R² был как можно больше.

Недостатком коэффициента детерминации R² является увеличение его значения при добавлении в модель дополнительных регрессоров. Если взять число регрессоров равным числу наблюдений можно добиться того, что R² =1, но это не будет означать наличие содержательной (имеющей экономический смысл) зависимости Y от регрессоров.

Попыткой устранить эффект, связанный с ростом R² при возрастании числа регрессоров, является коррекция R²на число регрессоров. Скорректированным R² называется

(14)

В определённой степени использование скорректированного коэффициента детерминации более корректно для сравнения регрессий при изменении количества регрессоров.

Проверка значимости модели

Значимость уравнения регрессии, т. е. гипотеза Но: β =0 (β o=β i-...β k=0), проверяется по F-критерию, наблюдаемое значение которого определяется по формуле:

(15)

_где

(16)

По таблице F-распределения для заданных α, vi-К+1, v2=n-k-1) находят Fкp.

Если Fнабл> Fкр, то уравнение является значимым, т. е. хотя бы один из коэффициентов регрессии отличен от нуля.

Проверка значимости отдельных коэффициентов регрессии.

Для проверки значимости отдельных коэффициентов регрессии, т.е. гипотез Но: β j=0, где j=l, 2,...k, используют t-критерий и вычисляют tнабл(bj)= bj/Sbj. По таблице t-распределения для заданного а и v= n-k-1 находят tkp.

Гипотеза Но отвергается с вероятностью а, если tнабд> tkp. Из этого следует, что соответствующей коэффициент регрессии β j значим, т. е. β j≠ 0.

Интегральная оценка с доверительной вероятностью у для параметра β j имеет вид:

(17)

где t_a находят по таблице t – распределение при вероятности а=1-у и числе степеней свободы v=n-K-1.

Точечная и интервальная оценки для уравнения регрессии в точке.

Зная вектор оценок коэффициентов регрессии b, можно найти оценку у по полученному уравнению регрессии в некоторой точке Х⁰:

(18)

Или в матричном виде: у=Хβ, где у=(У1, У2, …УN)

Интервальная оценка для уравнения регрессии у в точке определяемой вектором начальных условий , равна:

(19)

Интервал оценки предсказания у_n₊₁ с уровнем значимости α определяется как:

(20)

Где t_aопределяется по таблице t-распределения при v=n-k-1

По мере удаления вектора начальных условий х⁰от вектора средних х. ширина доверительного интервала при заданном у будет увеличиваться (рис. 1), где х = (1, х1, … хк)

Рисунок 1 – Точечная и интервальная оценки уравнения регрессии

Экспериментальная часть

Пример

Предприятие выпускает 5 видов товаров. Данные об их производстве и прибыль, полученная предприятием, за последние 20 недель приведены в таблице. К каким выводам можно прийти, используя компонентный и регрессионный анализ, по представленной информации?

Таблица 1.

Для решения данной задачи воспользуемся электронным документом regression.med (для работы которого необходимы regression1.med и regression2.med) составленным в математическом процессоре Mathcad 7.)

В качестве регрессионной модели возьмем линейную модель вида

У=β ₀+β ₁*х₁*β ₂х₂+ …+β _к*х_к (21)

Тогда в матричном виде исходные данные примут вид

Коэффициенты регрессии и их стандартные ошибки определим по следующим формулам:

(22)

(23)

Следовательно, аналитически модель можно представит как

Сумма квадратов остатков (необъясненная дисперсия)

(24)

Объясненная дисперсия

(25)

Полная дисперсия

(26)

То есть объясненная дисперсия составляет почти 100% от полной, что свидетельствует о хорошем соответствии модели реальной ситуации.

Коэффициенты детерминации (простой и скорректированный)

(27)

(28)

Высокое значение коэффициентов детерминации свидетельствует о высоком качестве полученной модели.

Проверка значимости уравнения регрессии и оценка доверительных интервалов для ее параметров.

Проверим значимость модели, используя F-статистику. Для этого выдвинем статистическую гипотезу о равенстве всех коэффициентов регрессии нулю.

Н0: все коэффициенты регрессии равны 0, т.е. уравнение модели незначимо.

В качестве альтернативной гипотезы предположим, что все коэффициенты регрессии не равны 0.

Н1: существует хотя бы один коэффициент регрессии, значение которого не равно 0, т.е. уравнение модели значимо.

(29)

F = 17? 963

(30)

F_tab=2, 901

Так как F> F_tab, то справедливо утверждать, что гипотеза Н0 отвергается в пользу альтернативной, т.е. полученная модель значима. •'

Проверим значимость коэффициентов регрессии, используя статистику Стьюдента. Для этого выдвинем k статистических гипотез о равенстве каждого коэффициента регрессии нулю. Альтернативными гипотезами будут неравенство каждого коэффициента нулю (коэффициент значим).

(31)

(32)

Результаты проверки гипотез приведены в матричном виде/

Следовательно, все коэффициенты регрессии (кроме коэффициента bi) являются значимыми. Так как гипотеза о равенстве коэффициента β ₁ нулю принимается, то справедливо полагать, что значение Y не зависит от значения X*.

Доверительные интервалы для β i представим в виде матрицы, в первом столбце которой укажем нижние границы интервалов для каждого Ь» а во втором - верхние.

(33)

Предсказание значения Y по полученной модели в заданной точке

X= (1 250 300 500 490 475)

В точке х значение, рассчитанное по модели, примет вид

У=119.518

Границы доверительного интервала предсказанного значения

У_min=119, 494

Y_max=119, 543

Так как полученная модель обладает высоким качеством, то не удивительно, что доверительный интервал предсказываемых значений оказался малым.

Вывод:

Использование регрессионного анализа привело к получению модели, очень хорошо описывающей взаимосвязь, между производством товаров и прибылью предприятия. Анализ коэффициентов регрессии показал, что товар №2 является наиболее прибыльным, а товар №4 - убыточным. Если предприятие произведёт 250 ед. товара №1, 300 ед. товара №2, 500 ед. - №3, 490 ед. - №4 и 475 ед. =№5, то, исходя из предсказания по модели, средняя прибыль составит с вероятностью 95% около 119, 494-119.543 ден. ед.

Адание на расчетную работу

1. Проиллюстрировать понятие регрессионного анализа.

2. Рассчитать по полученным данным коэффициенты линейной множественной регрессии, определить их стандартные отклонения.

3. Оцените качество построенной модели: разделите полную дисперсию зависимого параметра Y на объясненную и необъяснённую составляющие, определите коэффициент детерминации, сделайте выводы о качестве полученной модели.

4. Определите значимость коэффициентов регрессии, используя статистику Стьюдента.

5. Проверьте значимость модели, используя статистику Фишера.

6. По полученной модели определите с доверительной вероятностью 95% интервал возможных значений Y при заданных значениях независимых параметров X.

При выполнении работы рекомендуется использовать

пакеты прикладных программ Mathcad и Excel

Содержание отчета

Отчет должен содержать:

1. Титульный лист;

2. Задание;

3. Постановку задачи;

4. Результаты выполнения задания;

5. Выводы с экономической трактовкой.

5.Контрольные вопросы

1. Каким методом можно рассчитать коэффициенты производственной функции Кобба-Дугласа?

2. Описать факторы, обуславливающие точность коэффициентов множественной регрессии.

3. Записать формулы для расчета стандартных ошибок и построения доверительных интервалов.

4. Дать определение понятию «мультиколлинеарность».

5. Рассказать о методах уменьшение негативных последствий муяьтикодл инеарности.

⇐ Предыдущая 1 23

Последнее изменение этой страницы: 2017-04-13; Просмотров: 880; Нарушение авторского права страницы