Анализ всех возможных регрессий

⇐ ПредыдущаяСтр 4 из 5Следующая ⇒

В данной процедуре рассматриваются все возможные уравнения регрессий, включающие потенциальные независимые переменные. Исследователь начинает с уравнения, не содержащего ни одной независимой переменной, и анализирует все их возможные комбинации, чтобы выбрать наилучший набор независимых переменных.

В этой процедуре для сравнения уравнений регрессий могут использоваться различные критерии.

Рассмотрим только метод с использованием коэффициента детерминации , включающий четыре этапа.

На первом этапе необходимо построить уравнения регрессий для данной зависимой переменной и всех возможных наборов независимых переменных. Каждая независимая переменная может присутствовать или не присутствовать в уравнении (две возможности), потому всего будет 2^k уравнений (где k обозначает число независимых переменных). Так, если используется восемь независимых переменных (k=8), то потребуется рассмотреть 2⁸ = 256 уравнений.

Второй этап процедуры - разделение уравнений на множества в соответствии с количеством параметров, которые необходимо оценить.

Третий этап состоит в выборе наилучшей независимой переменной (или переменных) из каждой группы с определенным числом параметров. Уравнение с наибольшим считается наилучшим.

На четвертом этапе осуществляется субъективный выбор - какое уравнение является наилучшим. С одной стороны, исследователю желательно иметь наибольшее из возможных значений показателя , а с другой, - необходимо использовать максимально простое уравнение регрессии. Подход, предусматривающий анализ всех возможных моделей регрессии, предполагает, что количество точек данных n превышает число параметров k.

Вообще говоря, анализ всех возможных вариантов регрессии является неоправданным. Если утверждается, что исследователь " рассмотрел все имеющиеся возможности", то это означает, что он проанализировал большое количество уравнений, которые разумнее было бы исключить из рассмотрения. Затраты компьютерного времени и физические усилия, потраченные на анализ результатов компьютерных расчетов, становятся просто непомерными, как только количество независимых переменных выходит за рамки первого десятка. Желательно использовать некоторые дополнительные процедуры отбора, позволяющие ускорить решение данной задачи.

Пошаговая регрессия

Процедура пошаговой регрессии предусматривает поэтапное добавление в уравнение отдельных независимых переменных, по одной переменной на каждом этапе. При использовании этой процедуры компьютер позволяет обработать большое количество независимых переменных за одно выполнение программы.

Пошаговая регрессия наилучшим образом может быть описана посредством перечисления основных этапов проводимых вычислений (алгоритмом):

1 Рассматриваются все возможные простые регрессии. Независимая переменная, объясняющая наибольшую значимую долю вариации Y (имеет наибольшую корреляцию с зависимой переменной), - это первая переменная, включаемая в уравнение регрессии.

2 Следующая переменная, вводимая в уравнение, - это та (из еще не включенных в уравнение), которая привносит наибольший значимый вклад в регрессионную сумму квадратов. Является ли этот вклад значимым, определяется с помощью F-теста. Значение F-статистики, которое должно быть превышено для признания значимости некоторой переменной, часто называется значением F для включения.

3 После включения дополнительной переменной в уравнение, отдельный вклад в регрессионную сумму квадратов каждой из переменных, уже включенных в уравнение, проверяется на значимость с помощью F-теста. Если полученное значение F-статистики окажется меньше, чем величина, называемая F для исключения, данная переменная исключается из уравнения регрессии.

4 Этапы 2 и 3 повторяются, пока все возможные добавления не окажутся незначимыми, а все возможные удаления - значимыми. В этот момент процедура выбора заканчивается.

Пошаговая регрессия позволяет включать или исключать независимые переменные из уравнения регрессии на разных этапах исследования. Независимая переменная удаляется из модели, если она перестает давать значимый вклад при добавлении новой переменной.

Пользователь программы пошаговой регрессии сам указывает значения, определяющие, остается ли переменная в уравнении или удаляется. Поскольку F-статистика, используемая в пошаговой регрессии, такова, что F=t², где t – t-статистика для проверки значимости независимой переменной, F = 4 (соответствующее |t|=2) - это обычный выбор значения F для включения и F для исключения. Значение F для включения, равное 4, по существу, эквивалентно проверке на значимость независимой переменной на уровне 5%. Программа пошаговой регрессии в приложении Minitab предусматривает, что пользователь выбирает уровень для включения и для исключения переменных вместо значения F. Выбор значения =0, 05, приблизительно эквивалентен использованию F=4.

Результат пошаговой процедуры - это регрессионная модель, содержащая только независимые переменные с величинами t, значимыми на указанном уровне. Однако поскольку процедура проводилась шаг за шагом, у нас нет гарантии, что в данную регрессию включены, к примеру, три наилучшие для составления прогноза переменные. Кроме того, метод автоматического отбора не позволяет указать на необходимость преобразования переменных и исключить проблему мультиколлинеарности. Наконец, пошаговая регрессия не может создать важные переменные, не указанные пользователем. В любом случае необходимо тщательно продумать набор независимых переменных, предлагаемых для исследования с помощью программы пошаговой регрессии.

Метод пошаговой регрессии очень прост и удобен в использовании. К несчастью, этот метод можно очень легко употребить неправильно. Зачастую, изучая модель регрессии, исследователь создает большое количество возможных независимых переменных, а затем с помощью пошаговой процедуры определяет, какие из них являются значимыми. Проблема заключается в том, что при анализе большого количества независимых переменных проводится очень много t-тестов и становится вполне возможным допустить ошибку I рода (добавить незначимую переменную). В этом случае окончательная модель будет содержать переменную, не связанную с зависимой переменной линейно и включенную в модель только по случайности.

Как было отмечено выше, еще одна проблема связана с исходным выбором возможных независимых переменных. Когда эти переменные отобраны, слагаемые высших порядков (криволинейные, нелинейные и произведения) часто пропускаются с тем, чтобы сохранить лишь переменные, удобные для исследования. Таким образом, несколько важных переменных могут быть исключены из модели изначально. Становится очевидным, что интуитивный выбор исследователем начального множества независимых переменных – весьма критический момент в получении удачной регрессионной модели.

⇐ Предыдущая 1 2 345 Следующая ⇒