Линейная регрессия. Метод наименьших квадратов. Коэффициент детерминации.

Параметры генеральной совокупности и их выборочные оценки.

Генеральная совокупность – множество всех возможных значений случайной величины. Набор объектов, информацию о которых мы хотим получить.

Случайная величина – объект, который принимает случайное значение (дискретные и непрерывные). Функция распределения случайной величины X: F(x) = P(X≤ x).

Пусть х – дискретная случайная величина, {x₁, x₂, …, x_n…}- генеральная совокупность случайной величины.

Выборка – некоторое множество генеральной совокупности, информация о котором доступна. {x₁, x₂, …, x_n}- выборка значений случайной величины Х.

Выборка называется репрезентативной, если каждое свойство или комбинация свойств и в выборке и в генеральной совокупности имеет одинаковые частоты (частости). В противном случае выборка имеет смещение.

Случайная выборка:

1) все объекты имеют одинаковую вероятность попасть в эту выборку;

2) выбор объектов независимый.

Из генеральной совокупности N производится все возможные выборки объема n. Их количество: и из них выбирается на удачу любой.

В случайной выборке отсутствует умышленное смещение, значит случайная выборка в среднем репрезентативна, т.е. выборочные характеристики ( , , …) в среднем будут являться несмещенными оценками параметров (М (х), …).

Теоретические характеристики генеральной совокупности	Выборочные оценки
М (х) – теоретическое мат. ожидание	-среднее арифметическое. ~N(М (х); ) при (дляслучайной выборки)
- теоретическая дисперсия	- выборочная дисперсия; - исправленная (несмещенная) выборочная дисперсия.
теоретическая ковариация	- выборочная ковариация; - исправленная (несмещенная) ковариация.
- теоретический коэффициент корреляции	- выборочный коэффициент корреляции

Теоретическим мат. ожиданием М(х)=М_х является формула , где .

Свойства мат. ожидания:

1) , где x, y –случайные величины.

2) , где а = const, x – случайная величина.

3) .

Пусть х – случайная величина, . Тогда , где - постоянная составляющая; - случайная составляющая.

Пусть ; теоретическая дисперсия случайной величины . .

Следовательно,

Таким образом, если случайная величина х удовлетворяет , где - постоянная составляющая; - случайная составляющая с и , тогда и

Модель линейной регрессии.

Линейная регрессия находит широкое применение в эконометрике в виде четкой экономической интерпретации ее параметров.

Модель парной линейной регрессии имеет вид , где

- случайные переменные;

- параметры генеральной совокупности;

- случайный член (отклонение точки от прямой).

Причинами отклонения могут быть: сама природа, сами , расчетные ошибки и т.п.

Пусть - выборка значений объема n.

Оценим коэффициенты уравнения , построенного по данным выборки. Тогда будут оценками параметров .

Величина - это остаток в i-м наблюдении.

Значения коэффициентов определяются по МНК при условии: , тогда ; .

Коэффициент b показывает величину Δ у при изменении (увеличении) х на 1.

Значение коэффициента а показывает прогнозное значение у при х=0.

Будем считать, что значения и не является случайной величиной, тогда постоянны.

По МНК: , где - постоянная составляющая b; - случайная составляющая b.

Практическая значимость уравнения множественной регрессии оценивается с помощью коэффициента детерминации.

Коэффициент детерминации - одна из наиболее эффективных оценок адекватности регрессионной модели, мера качества уравнения регрессии, характеристика его прогностической силы.

характеризует долю вариации зависимой переменной, обусловленной регрессией или изменчивостью объясняющих переменных; чем ближе к единице, тем лучше регрессия описывает зависимость между объясняющими переменными и зависимой переменной.

Низкое значение коэффициента означает, что в регрессионную модель не включены существенные факторы – с одной стороны, а с другой – рассматриваемая форма связи не отражает реальные соотношения между переменными, включенными в модель. Требуются дальнейшие исследования по улучшению качества модели и увеличению ее практической значимости.

Коэффициент детерминации (или множественный коэффициент детерминации) R² определяется по формуле:

, где

- регрессионная (объясненная) дисперсия;

- общая дисперсия;

- остаточная дисперсия.

Свойства коэффициента детерминации:

1) ;

2) если x, y – независимы, то ;

3) если y – линейно зависит от x, то ;

4) теснота связи между x и y зависит от .

Утверждение: равен коэффициенту корреляции между y и .

Использование только одного коэффициента детерминации R² для выбора наилучшего уравнения регрессии, может оказаться недостаточным. На практике встречаются случаи, когда плохо определенная модель регрессии может дать сравнительно высокий коэффициент R².

Недостатком коэффициента детерминации R² является то, что он, вообще говоря, увеличивается при добавленииобъясняющих переменных, хотя это и не обязательно означает улучшение качества регрессионной модели. В этом смысле предпочтительнее использовать скорректированный (адаптированный, поправленный) коэффициент детерминации, определяемый по формуле:

Из формулыследует, что чем больше число объясняющих переменных m, тем меньше по сравнению с R². Вотличие от R²скорректированный коэффициент может уменьшаться при введении в модель новых объясняющих переменных, не оказывающих существенного влияния на зависимую переменную. Однако даже увеличение скорректированного коэффициента детерминации при введении в модель новой объясняющей переменной не всегда означает, что ее коэффициент регрессии значим.

При небольшом числе наблюдений величина имеет тенденцию переоценивать долю вариации результативного признака, связанную с влиянием факторов, включенных в регрессионную модель.

Таким образом, увеличение коэффициента детерминацииеще не означает улучшения качества регрессионной модели.

⇐ Предыдущая 28 29 30 31 323334 35 36 37 Следующая ⇒