Выбор наилучшей функции регрессии

⇐ ПредыдущаяСтр 5 из 7Следующая ⇒

Если функциональная форма связи между показателями неизвестна, необходимо построить несколько функций регрессии и выбрать из них наилучшую. Перечень функций, которые будут рассмотрены, определяется знаниями и предположениями, экспертными оценками относительно характера связи между показателями.

При прочих равных условиях критериями выбора наилучшей функции являются следующие.

1. Статистическая значимость всех параметров при независимых переменных.

2. Значимость всей функции в целом.

3. Выполнение требований Гаусса - Маркова, предъявляемых к случайным остаткам модели, в первую очередь, постоянство дисперсии и независимость друг от друга.

4. Минимальная доля остаточной дисперсии в общей дисперсии, т.е. максимальная величина коэффициента детерминации . Если модели регрессии содержат разное количество параметров, вместо следует сравнивать скорректированные коэффициенты детерминации .

Сопоставление функций по коэффициентам детерминации можно проводить только в том случае, если зависимая переменная представлена в моделях в одной и той же форме. Например, в линейной, полулогарифмической, полиномиальной функциях зависимая переменная/ представлена в исходной форме:

- линейная функция;

- полулогарифмическая функция;

- полином второй степени.

В нелинейных функциях, линеаризация которых связана с преобразованием зависимой переменной, коэффициент детерминации рассчитывается для значений преобразованной переменной. Например, при логарифмировании зависимой переменной

при преобразовании зависимой переменой в обратной функции

Очевидно, что показатели детерминации, рассчитанные по исходным и преобразованным значениям зависимой переменной, сравнивать нельзя. Не является корректным решением и расчет коэффициента детерминации по исходным (нелинейным) функциям. Это связано с тем, что при мультипликативной связи переменных (степенная, показательная функции) параметры могут быть найдены с помощью МНК, только если случайные остатки умножаются на выровненные значения зависимой переменной, а не прибавляются к ней:

;

Если рассчитать выровненное значение зависимой переменной по исходной функции

;

то случайные остатки не могут быть вычислены как разность фактического и выровненного значений зависимой переменной, что предполагается при расчете коэффициента детерминации:

;

Аналогичный вывод можно сделать для регрессии, построенной на основе обратной функции. Случайные остатки для этой функции могут быть вычислены как

Иногда коэффициент детерминации по исходным данным можно вычислить в качестве меры приближения выровненных значений зависимой переменной к исходным. В этом случае используют формулу

Полученный показатель называют квази- . Для функций, линеаризуемых путем логарифмирования правой и левой части, значения коэффициента детерминации, рассчитанные по линеаризованной регрессии и по исходной, часто имеют близкие значения.

На основе данных примера 2 найдем параметры степенной функции

В линеаризованной форме она будет иметь вид

После применения МНК к данным примера 2.1, получим функцию

Коэффициент детерминации для этой функции равен . Случайными остатками в данном случае являются величины . Именно к ним предъявляются требования Гаусса — Маркова.

Перейдем к исходной функции:

;

Если рассчитать случайные остатки

то коэффициент детерминации будет равен .

Различия между двумя показателями детерминации получились заметными (более 0, 1), однако показатель детерминации по исходной функции регрессии находится в допустимых границах [0; 1] и может быть соответствующим образом проинтерпретирован.

Рассмотрим по тем же данным регрессию на основе обратной функции

После линеаризации и применения МНК падучим регрессию в линеаризованном виде:

В исходной форме эта регрессия будет иметь вид

Принимая за выровненное значение зависимой переменной значение дроби без учета случайного остатка, рассчитаем ( ) и найдем коэффициент детерминации по исходной модели. Он оказался равным . Очевидно, что это значение не имеет никакого смысла. Таким образом, мы убедились, что расчет показателя детерминации по исходным значениям преобразуемой в ходе линеаризации зависимой переменной не только некорректен, но и может привести к бессмысленному результату. Следовательно, сопоставление коэффициентов детерминации по различным нелинейным функциям не приведет к желаемому результату - выбору наилучшей функции.

Процедура выбора наилучшего преобразования зависимой переменной была предложена Дж. Боксом и Д. Коксом. В их честь эту процедуру называют тестом Бокса - Кокса. В ее основе лежит утверждение о том, что как исходные (наблюдаемые), так и преобразованные значения какой-либо переменной являются частными случаями реализации функции (46) при разных значениях :

. (46)

В частности,

если то ;

если то .

В работе Н. Дрейпера, Г. Смита указывается, что при преобразовании по формуле (46) величина может сильно меняться, что приводит к проблемам в анализе и требует специальной программы для нахождения наилучшего значения .Поэтому предпочтительнее рассчитывать по формуле

, (47)

где - среднее геометрическое из значений зависимой переменной;

При применении формулы (47) преобразованное значение будет равно

для ;

для то .

Тест Бокса — Кокса заключается в поиске такого значения параметра , при котором остаточная сумма квадратов для модели с преобразованной переменной будет минимальной. Для этого необходимо выполнить следующие действия.

1. Выбрать конкретные значения . Например, . Границы интервала рассматриваемых значений можно при необходимости расширить, а шаг перебора уменьшить. Например, можно использовать интервал для от -2 до 2, а шаг уменьшить до 0, 25. Для значение высчитывается как (при использовании формулы (46)) или (при использовании формулы (47)).

2. Для каждого вычислить:

- параметры регрессии

где - линейная по параметрам функция.

Отметим, что функция должна быть не только линейна по параметрам, но и количество этих параметров должно быть одинаковым для всех сравниваемых функций. В противном случае дальнейшие действия по сопоставлению остаточных сумм квадратов (см. ниже) будут некорректными из-за разного числа степеней свободы этих показателей;

- остаточную сумму квадратов :

3. Выбрать с наименьшим . Соответствующее преобразование и будет наилучшим. Отметим, что модель, выбранная в качестве наилучшей, должна отвечать требованиям, перечисленным выше (параметры и уравнение регрессии должны быть значимыми, должны соблюдаться требования, предъявляемые к случайным остаткам).

Так как преобразования зависимой переменной предполагают, в частности, ее логарифмирование, тест Бокса — Кокса может быть применен только если все значения этой переменной положительны. Кроме того, как отмечают в своей работе Н. Дрейпер и Г. Смит, тест Бокса - Кокса целесообразно применять, если соотношение максимального и минимального значений зависимой переменной больше 10.

Предположим, например, что для показателей примера 2 рассматриваются следующие модели регрессии:

линейная ;

полиномиальная второй степени

;

полулогарифмическая

;

обратная

;

степенная ;

показательная .

Мы не имеем теоретических оснований предпочесть ту или иную функцию и должны выбрать наилучшую опытным путем. Оценим параметры каждой из функций с помощью МНК, предварительно произведя линеаризацию нелинейных функций. Результаты расчетов параметров, оценки значимости, величины показателей детерминации приведены в табл. 8.

Таблица 8. Результаты оценки параметров линейной и нелинейных функций, представленных в линеаризованной форме

Параметры функции и оценка их значимости по - критерию	Показатель детерминации	Общий F-критерий
( ) (1, 95) (2, 82) (3, 76) (3, 43)	,	F = 40, 3
( ) (-0, 38) (1, 07) (1, 99) (2, 64) (-0, 63) (-1, 27) (-1, 98)	,	F = 24, 7
( ) (-6, 20) (1, 63) (0, 85) (3, 32)	,	F = 29, 6
( ) (8, 41) (-2, 30) (-0, 91) (-1, 78)	,	F = 10, 9
( ) (4, 91) (2, 01) (1, 27) (6, 19)	,	F = 78, 7
( ) (60, 17) (3, 31) (2, 53) (3, 03)	,	F = 32, 7

Из рассмотренных функций незначимые параметры при независимых переменных имеют:

- полиномиальная (второй степени);

- обратная;

- полулогарифмическая;

- степенная.

Эти функции следует исключить из процедуры выбора наилучшей функции. Таким образом, необходимо выбрать функцию из двух оставшихся — линейной и показательной. Так как зависимые переменные в линеаризованной форме этих функций различны, а соотношение максимального и минимального значений зависимой переменной больше 10 (равно 26, 11), применим тест Бокса — Кокса. Найдем уравнения регрессии и остаточные суммы квадратов для преобразованной переменной , вычисленной по формуле (47). Нас интересуют только две функции, поэтому необходимо вычислить только для двух значений :

- (для непреобразованного значения зависимой переменной);

- (для ).

Имеем следующие результаты:

- при

; ;

( ) (1, 95) (2, 82) (3, 76) (3, 43)

- при

; ;

( ) (60, 17) (3, 31) (2, 53) (3, 03)

Остаточная сумма квадратов при меньше, чем остаточная сумма квадратов при . Следовательно, линейная функция лучше описывает связь между переменными, чем показательная.

Еще раз подчеркнем, что тест Бокса — Кокса предполагает перебор функций при большем количестве возможных значений . Мы ограничились только двумя, так как наша задача заключалась в выборе наилучшей функции из перечня предложенных выше.

Модификацией теста Бокса-Кокса является преобразование Зарембки, которое применяется для сопоставления только двух форм зависимой переменной – непреобразованной и прологарифмированной.

⇐ Предыдущая 1 2 3 456 7 Следующая ⇒