Классическая нормальная линейная модель множественной регрессии

Соотношение (24) называется классической нормальной линейной моделью множественной регрессии, если выполняются следующие условия:

X – детерминированная матрица;
e₁, …, e_n – независимые нормальные одинаково распределенные случайные величины: e_i~N(0, s²) M(e_ie_j)=0 при i¹ j;
ранг матрицы X равен p+1, и p+1< n.

Справедлива теорема Гаусса-Маркова: В условиях классической нормальной линейной модели множественной регрессии* оценки (28 )являются эффективными (т. е. имеют наименьшую дисперсию) в классе всех линейных несмещенных оценок.

Кроме того, можно доказать (см., например, [5]), что в условиях классической нормальной модели множественной регрессии оценки (28) обладают следующими свойствами#:

1. b – несмещенная оценка вектора b (Mb=b).

2. Ковариационная матрица оценок b может быть вычислена по формуле:

Db=s²(X¢ X)^-1. (31)

3. b_j (j=0, 1, …, p) являются нормальными случайными величинами.

4. Остаточная сумма квадратов Q_e независима от b, а статистика

(32)

имеет распределение хи-квадрат с числом степеней свободы n-p-1 (c²_n_-p-1).

5. Статистика s^2:

(32а)

является несмещенной оценкой дисперсии возмущений (Ms²=s²).

Значение числа степеней свободы n-p-1 можно объяснить следующим образом: из n наблюдений необходимо потратить p+1 наблюдений на оценку параметров регрессии.

Оценивание значимости множественной регрессии

Как и в случае парной регрессии, для оценивания качества оценок уравнения множественной регрессии используют критерии, вычисляемые через остаточную, регрессионную и полную суммы квадратов (см. §1.5 работы №1).

Коэффициент детерминации R² (см. формулу (12)) характеризует близость регрессионной модели к наблюдениям. Известно, что 0≤ R²≤ 1. Чем ближе R²к 1, тем лучше уравнение регрессии соответствует наблюдениям. Если R²=1, то все остатки равны нулю. Если R²=0, то , и регрессионная модель в качестве оценки отклика дает его выборочное среднее.

Известно, что коэффициент детерминации R² возрастает с увеличением числа факторов. С другой стороны, добавление факторов не всегда улучшает качество модели. Поэтому в модели множественной регрессии предпочтительней (вместо R²) использовать нормированный (скорректированный, поправленный) коэффициент детерминации :

. (33)

При добавлении новых факторов, не оказывающих существенного влияния на отклик, может уменьшаться (в отличие от R²).

Для множественной регрессии F-статистика Фишера вычисляется по следующей формуле, являющейся обобщением формулы (13) для парной регрессии:

(34)

Известно, что в условиях классической нормальной линейной регрессионной модели статистика (34) распределена по Фишеру со степенями свободы k₁=p и k₂=n-p-1. Обозначим через f(a; p; n-p-1) квантиль F-распределения уровня 1-a. Если уравнение регрессии незначимо, то большие значения статистики F маловероятны. Поэтому гипотезу о незначимости уравнения регрессии следует отклонять, если

F> f(a; p; n-p-1). (35)

Вероятность ошибки первого рода (отклонить гипотезу при условии, что она верна) при использовании правила (35) равна a.

Проверка гипотезы о коэффициентах линейной регрессии

Коэффициент b_j незначим, если b_j =0, j=1, …, p; в этом случае зависимая переменная Y не зависит от j-го фактора (т. е. фактор незначим). Проверим гипотезу H_j: b_j =0.

Оценка b_j параметра b_j имеет (см. §1.4) нормальное распределение , причем дисперсия определяется как j-й диагональный элемент матрицы (31). Среднее квадратичное отклонение возмущений s обычно неизвестно, и в (31) s заменяют на s (см. формулу (32а)); выборочную дисперсию, полученную в результате такой замены, обозначим . Так как b_j и s независимы, то статистика

(36)

имеет распределение Стьюдента с n-p-1 степенями свободы.

Если гипотеза Н_j верна, то

, (36а)

и большие по модулю значения статистики (36а) маловероятны. Поэтому при выполнении неравенства

|T_j |> t(a; n-p-1), (37)

где t(a; n-p-1) – квантиль распределения Стьюдента уровня 1-a, гипотезу Н_j следует отклонить. Вероятность ошибки первого рода при использовании правила (37) равна a.

Проверяя неравенство (37), можно определить, какие факторы надо исключить из модели множественной регрессии как незначимые.

Предыдущая 1 2 345 6 7 8 9 10 11 Следующая