Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Метод наименьших квадратов (МНК) ⇐ ПредыдущаяСтр 8 из 8
Рассмотрим задачу «наилучшей» аппроксимации набора наблюдений , линейным уравнением где и – оценки параметров и в модели парной регресии Пусть имеем n наблюдений
По этим данным можно построить оцененное уравнение регрессии По этому уравнению вычислим , . Величина является расчетным значением переменной , соответствующее . Наблюдаемые значения не может в точности на линии регрессии, так как не совпадают с . Остаток в –м наблюдении определяется как разность между фактическим и расчетным значениями зависимой переменной, т.е. . Расположение линии регрессии, задаваемой уравнением определяется параметрами и .
Рисунок 4.2
Неизвестные значения определяются методом наименьших квадратов. Суть МНК заключается в минимализации суммы квадратов остатков где – известные значения наблюдения (числа); – неизвестные. Это квадратичная функция. Необходимые условия экстремума функции заключается в равенстве нулю частных производных по и : В развернутом виде эти уравнения запишутся в виде:
Или , . Решение этой системы с двумя неизвестными и : Расчетное значение зависимой переменной или линия регрессии имеет уравнение или . Линия регрессии проходит через точку и выполняются равенства . Коэффициент есть угловой коэффициент регрессии, т.е. показатель наклона линии линейной регрессиии. Он показывает, на сколько единиц в среднем изменяется переменная у при увеличении независимой переменной на единицу. Постоянная дает прогнозируемое значение зависимой переменной при . Это может иметь смысл в зависимости от того, как далеко находится от выборочных значений . После построения уравнения регрессии наблюдаемые значения у можно представить как . Остатки , как и ошибки являются случайными величинами. Однако они в отличии от ошибок наблюдаемы. Докажем, что Доказано, так как , ; , Выборочные дисперсии вычисляются по формулам: - дисперсия наблюдаемых значений у. - дисперсия «расчетных» значений у. - дисперсия остатков.
Задание 4.1 Докажите, что , где коэффициент корреляции между – их стандартные отклонения.
4.3 Качество оценки: Коэффициент детерминации Цель регрессионного анализа состоит в объяснении поведения зависимой переменной . Пусть на основе выборочных наблюдений построено уравнение регрессии . Значение зависимой переменной в каждом наблюдении можно разложить на две составляющие , , где остаток есть та часть зависимой переменной , которую невозможно объяснить с помощью уравнения регрессии. Разброс значений зависимой переменной характеризуется выборочной дисперсией . Разложим : Так как , то . Замечание. Такое разложение дисперсии верно лишь в том случае, когда константа а включена в уравенение регрессии. Итак, дисперсия разложена на две части: – часть, которая объясняется регрессионным уравнением, – необъясненная часть. Разделим правую и левую часть равенства на : , TSS=ESS+RSS. Получим . Коэффициентом детерминации называется отношение , Коэффициентом детерминации и характеризует долю дисперсии (вариации или разброса) зависимой переменной, объясненную с помощью уравнения регрессии. Максимальное значение . Это происходит в случае, когда все точки наблюдения лежат на регрессионной прямой (подгонка точная), т.е. и остатки для всех . Тогда . Если , то регрессия ничего не дает, т.е. . Это значит, что переменная не улучшает качества предсказания по сравнению с горизонтальной прямой (рисунок 4.5).
Рисунок 4.5 Чем ближе к единице , тем лучше качество подгонки, т.е. более точно аппроксимирует . Замечание. Вычисление корректно, если константа а включена в уравнение регрессии. Напомню, что выборочные дисперсии и : дисперсия наблюдаемых значений . дисперсия расчетных значений - дисперсия остатков. Пример 4.1Изучается зависимость себестоимости единицы изделия (у, тыс. руб.) от величины выпуска продукции (х, тыс. шт.) по группам предприятий за отчетный период. Экономист обследовал n = 5 предприятий и получил следующие результаты (1-й и 2-й столбцы). Полагая, что между переменными х, у имеет место линейная зависимость, определим выборочное уравнение линейной регрессии. Заполним таблицу
Уравнение линейной регрессии имеет вид: Найдем остатки и коэффициент детерминации. Решение: Заполним таблицу
var(y)= ; var( )= ; var( )= Проверим: Var(y)=var( )+var( ); 0.0296=0.0242+0.0054 0.0296=0.0296, отсюда R2= Т.е. 81, 7 % общей вариации себестоимости у зависит от выпуска продукции х. Наша модель не объясняет 18, 3 % вариации себестоимости. Эта часть вариации объясняется факторами, не включенными в модель. Пример 4.2. Показать, что , где - коэффициент корреляции между и . Решение: Тогда Пример 4.3. Показать, что в случае парной регрессии , Решение: В случае парной регрессии коэффициент детерминации есть квадрат коэффициента переменных и . Пример 4.4 Показать, что в модели регрессии без свободного члена , оценка МНК для есть Решение: Выборочная регрессия для данной модели . Наблюдаемые значения зависимой переменной связаны с расчетными значениями уравнением . Оценку найдем из минимизации величины Найдем Т.к. Отсюда Вычисление при отсутствии свободного члена некорректно. Пример 4.5.Показать, что в модели регрессии Оценка для есть Решение: Выборочная регрессия для заданной модели есть наблюдаемые значения зависимой переменной связаны с расчетными значениями уравнением Оценку а найдем из минимизации величины Найдем Т.к. Итак, выборочная регрессия .
Контрольные вопросы: 1.Какой общий вид имеет модель парной линейной регрессии? 2.Перечислите основные причины существования случайного члена в модели парной линейной регрессии. 3.Какой метод используют для проведения регрессионного анализа? 4.В чем суть задачи регрессионного анализа? 5.Какое значение может принимать коэффициент детерминации и почему?
|
Последнее изменение этой страницы: 2017-03-17; Просмотров: 103; Нарушение авторского права страницы