Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Линейная регрессия. Метод наименьших квадратов. Коэффициент детерминации.
Параметры генеральной совокупности и их выборочные оценки. Генеральная совокупность – множество всех возможных значений случайной величины. Набор объектов, информацию о которых мы хотим получить. Случайная величина – объект, который принимает случайное значение (дискретные и непрерывные). Функция распределения случайной величины X: F(x) = P(X≤ x). Пусть х – дискретная случайная величина, {x1, x2, …, xn…}- генеральная совокупность случайной величины. Выборка – некоторое множество генеральной совокупности, информация о котором доступна. {x1, x2, …, xn}- выборка значений случайной величины Х. Выборка называется репрезентативной, если каждое свойство или комбинация свойств и в выборке и в генеральной совокупности имеет одинаковые частоты (частости). В противном случае выборка имеет смещение. Случайная выборка: 1) все объекты имеют одинаковую вероятность попасть в эту выборку; 2) выбор объектов независимый. Из генеральной совокупности N производится все возможные выборки объема n. Их количество: и из них выбирается на удачу любой. В случайной выборке отсутствует умышленное смещение, значит случайная выборка в среднем репрезентативна, т.е. выборочные характеристики ( , , …) в среднем будут являться несмещенными оценками параметров (М (х), …).
Теоретическим мат. ожиданием М(х)=Мх является формула , где . Свойства мат. ожидания: 1) , где x, y –случайные величины. 2) , где а = const, x – случайная величина. 3) . Пусть х – случайная величина, . Тогда , где - постоянная составляющая; - случайная составляющая. Пусть ; теоретическая дисперсия случайной величины . . Следовательно, Таким образом, если случайная величина х удовлетворяет , где - постоянная составляющая; - случайная составляющая с и , тогда и Модель линейной регрессии. Линейная регрессия находит широкое применение в эконометрике в виде четкой экономической интерпретации ее параметров. Модель парной линейной регрессии имеет вид , где - случайные переменные; - параметры генеральной совокупности; - случайный член (отклонение точки от прямой). Причинами отклонения могут быть: сама природа, сами , расчетные ошибки и т.п. Пусть - выборка значений объема n. Оценим коэффициенты уравнения , построенного по данным выборки. Тогда будут оценками параметров . Величина - это остаток в i-м наблюдении. Значения коэффициентов определяются по МНК при условии: , тогда ; . Коэффициент b показывает величину Δ у при изменении (увеличении) х на 1. Значение коэффициента а показывает прогнозное значение у при х=0. Будем считать, что значения и не является случайной величиной, тогда постоянны. По МНК: , где - постоянная составляющая b; - случайная составляющая b. Практическая значимость уравнения множественной регрессии оценивается с помощью коэффициента детерминации. Коэффициент детерминации - одна из наиболее эффективных оценок адекватности регрессионной модели, мера качества уравнения регрессии, характеристика его прогностической силы. характеризует долю вариации зависимой переменной, обусловленной регрессией или изменчивостью объясняющих переменных; чем ближе к единице, тем лучше регрессия описывает зависимость между объясняющими переменными и зависимой переменной. Низкое значение коэффициента означает, что в регрессионную модель не включены существенные факторы – с одной стороны, а с другой – рассматриваемая форма связи не отражает реальные соотношения между переменными, включенными в модель. Требуются дальнейшие исследования по улучшению качества модели и увеличению ее практической значимости. Коэффициент детерминации (или множественный коэффициент детерминации) R2 определяется по формуле: , где - регрессионная (объясненная) дисперсия; - общая дисперсия; - остаточная дисперсия. Свойства коэффициента детерминации: 1) ; 2) если x, y – независимы, то ; 3) если y – линейно зависит от x, то ; 4) теснота связи между x и y зависит от . Утверждение: равен коэффициенту корреляции между y и . Использование только одного коэффициента детерминации R2 для выбора наилучшего уравнения регрессии, может оказаться недостаточным. На практике встречаются случаи, когда плохо определенная модель регрессии может дать сравнительно высокий коэффициент R2. Недостатком коэффициента детерминации R2 является то, что он, вообще говоря, увеличивается при добавленииобъясняющих переменных, хотя это и не обязательно означает улучшение качества регрессионной модели. В этом смысле предпочтительнее использовать скорректированный (адаптированный, поправленный) коэффициент детерминации, определяемый по формуле: Из формулыследует, что чем больше число объясняющих переменных m, тем меньше по сравнению с R2. Вотличие от R2 скорректированный коэффициент может уменьшаться при введении в модель новых объясняющих переменных, не оказывающих существенного влияния на зависимую переменную. Однако даже увеличение скорректированного коэффициента детерминации при введении в модель новой объясняющей переменной не всегда означает, что ее коэффициент регрессии значим. При небольшом числе наблюдений величина имеет тенденцию переоценивать долю вариации результативного признака, связанную с влиянием факторов, включенных в регрессионную модель. Таким образом, увеличение коэффициента детерминацииеще не означает улучшения качества регрессионной модели.
Популярное:
|
Последнее изменение этой страницы: 2016-08-24; Просмотров: 882; Нарушение авторского права страницы