Замечание: во избежание зацикливания процесса включения исключения значимость включения устанавливается меньше значимости исключения

В ШАМР для отбора лучших структур используют

- порог критерия качества модели (связанный с уровнем значимости) и

- коррекцию формулы расчета критерия качества модели, учитывающий штраф за сложность модели.

Подход имеет недостаток в том смысле что не формализует очевидным образом выбор порога в зависимости от условий моделирования (дисперсия и параметры шума, степень коррелированности входов и тд)

А используемый механизм штрафи за сложность – (деление на n-m) мало чувствителен к условиям моделирования при больших и средних значениях n –кол. точек

Остается привести формулу расчета статистики Фишера (F теста) который был создан для сравнения и выводов о различие дисперсий.

Введем обозначения

· — сумма квадратов ошибок, - здесь

- наблюдаемые значения, - значения модели

· — среднеквадратичная ошибка, - в завис. от шага использования -

ее в методе шаговой регрессии

где - количество точек, - количество оцениваемых параметров модели - число степеней свободы модели, (-2). – потому что учитывается свободный член модели и одна степень свободы у среднего .

- сумма квадратов регрессии

Есть до ввода регрессора претендента в модель - ,

есть после ввода регрессора претендента в модель

и есть разница

Сумма квадратов регрессий при введении полезного аргумента увеличивается и стремится к значению

Поэтому аргумент с большим приростом - лучше.

Соответственно рассматриваются и - значение среднеквадратичной ошибки до и после ввода регрессора в модель

Тогда статистку (*) называют критерием или F-тестом Фишера. применительно к шаговой регрессии. Доказано что данная статистика f - есть случайная величина (сумма делить на сумму ), распределенная по закону Фишера и ее используют для определения порога отсева аргументов по значению улучшения дисперсии модели.

Вопрос:

Зачем для определения порога отсева аргументов рассматривать отношение (*) а не просто улучшение ошибки или прирост ????. – Резон в том что это отношение расределено по известному закону Фишера и для определения состава аргументов модели привлекают механизм проверки статистических гипотез:

При реализации процедуры включения аргумента - р ассматривается гипотеза H₀, что улучшение качества модели незначимо.

То есть Н0 состоит в том что введенный аргумент - ложный.

Проверка гипотезы H₀ сводиться к последовательности действий:

1. Задаемся уровнем значимости , например 0, 01 или 0, 05.
характеризует риск принятия неправильного решения. То есть риск введения ложного аргумента ( вероятность ошибки 1 рода )

2. По специальным таблицам находим -процентную точку распределения Фишера со степенями свободы d1=1 d = n-k-2 (для формулы (**) степень свободы определяется как d₁=(п-k)-(n-k-1)=1). Это значение будет являться нашим пороговым для статистики (*).

Сравниваем точку со значением расчетной статистики .
Если окажется, что , то делается вывод о значимости введенного признака и, соответственно, его следует включить в модель (отдается предпочтение гипотезе H₁ с вероятностью ошибиться).
Если же , то принимается решение о неэффективности включения переменной в модель, то есть гипотеза H₀ принимается с вероятностью как не противоречащая экспериментальным данным.

p(F)

( здесь p(F) = -плотность распределения Фишеровской случ величины, чем выше (боль) порог

тем меньше уровень значимости

- ошибк.1 род).

На рис. видим что зона допуст. расчетных значений лежат выше (в смысле справа ) порога , а соответствующая зона расчетной ошибки 1рода - (площадь под хвостом)-должна быть меньше порогового уровня уровня значения ошибки 1-ого рода - . Таким образом задавая в Stepwise =допустим 0.05 (или соответств ) -что есть вероятность вкл. ложного аргумента (вер ош 1 рода) мы этим параметром полностью доопределяем процедуру включения аргументов в модель.

Аналогично при процедуре исключения аргументов из модели р ассматривается гипотеза H₀, что ухудшение качества модели незначимо

Соответственно выбранный уровень значимости =допустим 0.1 (или соотв ) - есть вероятность исключения истинного аргумента (вер ошибки 2-го рода). Соответственно решение о принятии H₀ " гипотезы о незначимости аргумента" _- и исключении аргумента из модели реализуется при выполнении условия . То есть область допустимых для исключения значений лежит слева от

----------- ====

⇐ Предыдущая 1 2 3 4 5 678 9 10 Следующая ⇒

Последнее изменение этой страницы: 2017-04-12; Просмотров: 376; Нарушение авторского права страницы