Статистические гипотезы о значениях коэффициентов

Выше в примере мы получили – доверительный интервал для параметра в следующем виде

(2.1)

или

Если действительное значение равняется 1, то вероятность непопадания его в полученный доверительный интервал равна . Т.е. это довольно редкое событие, имеющее вероятность , что дает нам право сомневаться в том, что =1.

Те же соображения относятся и к другому значению , не лежащемув указанном -доверительном интервале: утверждение, что , является маловероятным.

Такого рода утверждения называются статистическими гипотезами (statistical hypothesis). Проверяемая гипотеза называется исходная– «нулевая» (maintained, null) гипотеза и обозначается через следующим образом:

Такая гипотеза отвергается (отклоняется), если значение не принадлежит полученному -доверительному интервалу для

Из (2.2.1) мы получаем, что не принадлежит данному интервалу тогда и только тогда, когда

и гипотеза отвергается. Гипотеза может быть не верна при выполнении этого неравенства, причем это может произойти с вероятностью .

Тогда гипотеза отвергается, при этом допускается «ошибка 1-го рода».

При выборе произвольного доверительного уровня , гипотеза отвергается при выполнении неравенства

или, вероятность ошибки 1-го рода будет равна , другими словами, гипотеза отвергается при условии, что она верна с вероятностью .

Процедура установления истинности статистической гипотезы называется статистическим критерием проверки гипотезы Н₀, а выбираемое значение gназывается уровнем значимости критерия.

Выбор значения gопределяется значимостью для исследователя исходной гипотезы . Например, значение исследователь выбирает, если интуитивно склоняется к гипотезе , ион менее всего готов от нее отказаться. Выбирая же уровень значимости , исследователь не так сильно настаивает на гипотезе и может пренебречь ею.

Статистический критерий, как правило, основывается на использовании статистики критерия, случайной величины с известным распределением, значения которой вычисляются на основе имеющихся статистических данных. В выше проведенных вычислениях критерий проверки гипотезы базировался на использовании t-статистики

,

где – заданное число, а и определяются на основании данных наблюдений.

Гипотеза отвергается на множестве K значений статистики критерия, которое называется критическим множеством критерия. В нашем примере таким является множество значений -статистики, по абсолютной величине превышающих значение

Таким образом, статистический критерий задается:

a. статистической гипотезой Н₀;

b. уровнем значимости g;

c. статистикой критерия;

d. критическим множеством K.

Для одного и того же уровня значимости, как будет показано в дальнейшем, могут быть определены разные критические множества, что позволяет исследователю выбрать множество K наиболее эффективным образом, т.е. выбирать наиболее мощный критерий.

Пакеты прикладных программ для анализа данных (в том числе и Пакет анализа EXСEL, см. п.2.5 приложение 4)основное внимание придают проверке гипотезы

в условиях множественной линейной регрессии

у=a₀+a₁х₁ +a₂х₂ +…+a_mх_m+e,

где погрешность eявляется нормально распределенной случайной величиной с параметрами .

Данная гипотеза соответствует тому предположению, что -я объясняющая переменная не влияет на объясняемую переменную у, и ее можно исключить из модели.

Для рассматриваемого критерия

a. ;

b. по умолчанию обычно выбирается уровень значимости равный ;

c. статистика критерия определяется следующим образом

если верна гипотеза , то получаем статистику с распределением Стьюдента при степенях свободы,

~ ,

Которая называется t-статистика (t-statistic);

d) критическое множество Kимеет вид

При этом, результаты регрессионного анализа содержат:

· оценку параметра - графа Коэффициенты (Coefficient);

· - знаменатель t-статистики – графа Стандартная ошибка (Std.Error);

· отношение - графа t-статистика (t-statistic).

Также сообщается:

· вероятность принятия случайной величиной, имеющей распределение Стьюдента при степенях свободы, значения, большее по абсолютной величине наблюденного значения – графа Р-значение (Р-value или Probability).

Если найденное P-значение не больше заданного уровня значимости , то t-статистика попадает в область непринятия гипотезы , следовательно Тогда гипотеза отвергается.

Если полученное P-значение больше заданного уровня значимости , то t-статистика не входит в область непринятия гипотезы , значит, Тогда гипотеза принимается.

Если уровень значимости равен P-значению, в отношении гипотезы принимается любое из этих двух решений.

Если гипотеза отвергается, то параметр является статистически значимым (statistically significant); это значит, что присутствие объясняющей переменной в модели существенно для объясняемой переменной.

Если же гипотеза не отвергается, то параметр является статистически незначимым (statistically unsignificant). Значит, используя данный статистический критерий мы не получили аргументов против гипотезы о том, что . Следовательно, можно не включать эту переменную в модель регрессии.

Впрочем, статистическая значимость (или незначимость) параметров модели зависит от выбранного уровня значимости : значимость параметра может измениться при изменении .

Пример 2.2. Пусть в примере 2.1 с уровнями безработицы получаем и следующие данные:

Переменная	Коэффициент	Станд. ошибка	t-статистика	P-значение
	2.294	0.411	5.588	0.0001
СЗ	0.126	0.063	2.012	0.0626

Тогда, при заданном уровне значимости получаем коэффициент при переменной СЗ статистически незначимым. Если взять , то -значение получается меньше уровня значимости, и тогда коэффициент при переменной СЗ получается статистически значимым.

Пример2.3. Исследуя зависимость спроса на куриные окорочка от цены, получили и следующие данные:

Переменная	Коэффициент	Станд. ошибка	t-статистика	P-значение
	21.101	2.305	9.157	0.0000
ЦЕНА	–18.5591	5.0101	-3.7051	0.00261

Получили статистически значимый коэффициент при объясняющей переменной ЦЕНА при уровне , так что ЦЕНА в данном примере получилась существенная объясняющая переменная.

Пример2.4. Регрессионный анализ спроса на свинину на душу населения Челябинска в зависимости от цены на свинину дает значения и следующие значения параметров:

Переменная	Коэффициент	Станд. ошибка	t-статистика	P-значение
	77.485	13.922	5.567	0.0001
ЦЕНА	-24.776	29.795	-0.833	0.4218

В этом случае коэффициент при переменной ЦЕНА получился статистически незначимым при следующих уровнях значимости .

⇐ Предыдущая 1 2 345 6 7 8 9 10 Следующая ⇒