Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Выбор наилучшей функции регрессии



Если функциональная форма связи между показателями не­известна, необходимо построить несколько функций регрес­сии и выбрать из них наилучшую. Перечень функций, которые будут рассмотрены, определяется знаниями и предположени­ями, экспертными оценками относительно характера связи между показателями.

При прочих равных условиях критериями выбора наилуч­шей функции являются следующие.

1. Статистическая значимость всех параметров при независимых переменных.

2. Значимость всей функции в целом.

3. Выполнение требований Гаусса - Маркова, предъявля­емых к случайным остаткам модели, в первую очередь, постоянство дисперсии и независимость друг от друга.

4. Минимальная доля остаточной дисперсии в общей дисперсии, т.е. максимальная величина коэффициен­та детерминации . Если модели регрессии содержат разное количество параметров, вместо следует срав­нивать скорректированные коэффициенты детерми­нации .

Сопоставление функций по коэффициентам детермина­ции можно проводить только в том случае, если зависимая переменная представлена в моделях в одной и той же форме. Например, в линейной, полулогарифмической, полиномиаль­ной функциях зависимая переменная/ представлена в исход­ной форме:

- линейная функция;

- полулогарифмическая функция;

- полином второй сте­пени.

В нелинейных функциях, линеаризация которых связана с преобразованием зависимой переменной, коэффициент детерминации рассчитывается для значений преобразован­ной переменной. Например, при логарифмировании зависи­мой переменной

при преобразовании зависимой переменой в обратной функции

Очевидно, что показатели детерминации, рассчитанные по исходным и преобразованным значениям зависимой пе­ременной, сравнивать нельзя. Не является корректным ре­шением и расчет коэффициента детерминации по исходным (нелинейным) функциям. Это связано с тем, что при муль­типликативной связи переменных (степенная, показатель­ная функции) параметры могут быть найдены с помощью МНК, только если случайные остатки умножаются на вы­ровненные значения зависимой переменной, а не прибав­ляются к ней:

;

.

Если рассчитать выровненное значение зависимой пере­менной по исходной функции

;

,

то случайные остатки не могут быть вычислены как раз­ность фактического и выровненного значений зависимой пе­ременной, что предполагается при расчете коэффициента де­терминации:

;

.

Аналогичный вывод можно сделать для регрессии, построенной на основе обратной функции. Случайные остатки для этой функ­ции могут быть вычислены как

.

Иногда коэффициент детерминации по исходным данным можно вычислить в качестве меры приближения выровнен­ных значений зависимой переменной к исходным. В этом слу­чае используют формулу

Полученный показатель называют квази- . Для функций, линеаризуемых путем логарифмирования правой и левой части, значения коэффициента детерминации, рассчитанные по линеаризованной регрессии и по исходной, часто имеют близкие значения.

На основе данных примера 2 найдем параметры степен­ной функции

.

В линеаризованной форме она будет иметь вид

.

После применения МНК к данным примера 2.1, получим функцию

.

Коэффициент детерминации для этой функции равен . Случайными остатками в данном случае являются вели­чины . Именно к ним предъявляются требования Гаусса — Маркова.

Перейдем к исходной функции:

;

Если рассчитать случайные остатки

,

то коэффициент детерминации будет равен .

Различия между двумя показателями детерминации полу­чились заметными (более 0, 1), однако показатель детермина­ции по исходной функции регрессии находится в допустимых границах [0; 1] и может быть соответствующим образом про­интерпретирован.

Рассмотрим по тем же данным регрессию на основе обрат­ной функции

.

После линеаризации и применения МНК падучим регрес­сию в линеаризованном виде:

.

В исходной форме эта регрессия будет иметь вид

.

Принимая за выровненное значение зависимой перемен­ной значение дроби без учета случайного остатка, рассчитаем ( ) и найдем коэффициент детерминации по исходной мо­дели. Он оказался равным . Очевидно, что это значе­ние не имеет никакого смысла. Таким образом, мы убедились, что расчет показателя детерминации по исходным значениям преобразуемой в ходе линеаризации зависимой переменной не только некорректен, но и может привести к бессмысленно­му результату. Следовательно, сопоставление коэффициентов детерминации по различным нелинейным функциям не при­ведет к желаемому результату - выбору наилучшей функции.

Процедура выбора наилучшего преобразования зависи­мой переменной была предложена Дж. Боксом и Д. Коксом. В их честь эту процедуру называют тестом Бокса - Кокса. В ее основе лежит утверждение о том, что как исходные (на­блюдаемые), так и преобразованные значения какой-либо пе­ременной являются частными случаями реализации функции (46) при разных значениях :

. (46)

В частности,

если то ;

если то ;

если то .

В работе Н. Дрейпера, Г. Смита указывается, что при прео­бразовании по формуле (46) величина может сильно ме­няться, что приводит к проблемам в анализе и требует специ­альной программы для нахождения наилучшего значения .Поэтому предпочтительнее рассчитывать по формуле

, (47)

где - среднее геометрическое из значений зависимой переменной;

.

При применении формулы (47) преобразованное значе­ние будет равно

для ;

для ;

для то .

Тест Бокса — Кокса заключается в поиске такого значения параметра , при котором остаточная сумма квадратов для модели с преобразованной переменной будет минималь­ной. Для этого необходимо выполнить следующие действия.

1. Выбрать конкретные значения . Например, . Границы интервала рассматриваемых значений можно при необходимости расширить, а шаг перебо­ра уменьшить. Например, можно использовать интер­вал для от -2 до 2, а шаг уменьшить до 0, 25. Для значение высчитывается как (при использовании формулы (46)) или (при использовании форму­лы (47)).

2. Для каждого вычислить:

- параметры регрессии

,

где - линейная по параметрам функция.

Отметим, что функция должна быть не только линейна по параметрам, но и количество этих параметров должно быть одинаковым для всех сравниваемых функций. В противном случае дальнейшие действия по сопоставлению остаточных сумм квадратов (см. ниже) будут некорректными из-за раз­ного числа степеней свободы этих показателей;

- остаточную сумму квадратов :

.

3. Выбрать с наименьшим . Соответствующее прео­бразование и будет наилучшим. Отметим, что модель, выбранная в качестве наилучшей, должна отвечать тре­бованиям, перечисленным выше (параметры и уравнение регрессии должны быть значимыми, должны соблюдать­ся требования, предъявляемые к случайным остаткам).

Так как преобразования зависимой переменной предпола­гают, в частности, ее логарифмирование, тест Бокса — Кокса может быть применен только если все значения этой перемен­ной положительны. Кроме того, как отмечают в своей рабо­те Н. Дрейпер и Г. Смит, тест Бокса - Кокса целесообразно применять, если соотношение максимального и минимально­го значений зависимой переменной больше 10.

Предположим, например, что для показателей примера 2 рассматриваются следующие модели регрессии:

линейная ;

полиномиальная второй степени

;

полулогарифмическая

;

обратная

;

степенная ;

показательная .

Мы не имеем теоретических оснований предпочесть ту или иную функцию и должны выбрать наилучшую опытным путем. Оценим параметры каждой из функций с помощью МНК, предварительно произведя линеаризацию нелинейных фун­кций. Результаты расчетов параметров, оценки значимости, величины показателей детерминации приведены в табл. 8.

Таблица 8. Результаты оценки параметров линейной и нелиней­ных функций, представленных в линеаризованной форме

Параметры функции и оценка их зна­чимости по - критерию Показатель детерминации   Общий F-критерий
( ) (1, 95) (2, 82) (3, 76) (3, 43) , F = 40, 3
( ) (-0, 38) (1, 07) (1, 99) (2, 64) (-0, 63) (-1, 27) (-1, 98) , F = 24, 7
( ) (-6, 20) (1, 63) (0, 85) (3, 32) , F = 29, 6
( ) (8, 41) (-2, 30) (-0, 91) (-1, 78) , F = 10, 9
( ) (4, 91) (2, 01) (1, 27) (6, 19) , F = 78, 7
( ) (60, 17) (3, 31) (2, 53) (3, 03) , F = 32, 7

Из рассмотренных функций незначимые параметры при не­зависимых переменных имеют:

- полиномиальная (второй степени);

- обратная;

- полулогарифмическая;

- степенная.

Эти функции следует исключить из процедуры выбора на­илучшей функции. Таким образом, необходимо выбрать фун­кцию из двух оставшихся — линейной и показательной. Так как зависимые переменные в линеаризованной форме этих функций различны, а соотношение максимального и мини­мального значений зависимой переменной больше 10 (рав­но 26, 11), применим тест Бокса — Кокса. Найдем уравнения регрессии и остаточные суммы квадратов для преобразован­ной переменной , вычисленной по формуле (47). Нас ин­тересуют только две функции, поэтому необходимо вычи­слить только для двух значений :

- (для непреобразованного значения зависимой пе­ременной);

- (для ).

Имеем следующие результаты:

- при

; ;

( ) (1, 95) (2, 82) (3, 76) (3, 43)

- при

; ;

( ) (60, 17) (3, 31) (2, 53) (3, 03)

Остаточная сумма квадратов при меньше, чем оста­точная сумма квадратов при . Следовательно, линейная функция лучше описывает связь между переменными, чем по­казательная.

Еще раз подчеркнем, что тест Бокса — Кокса предполагает перебор функций при большем количестве возможных значе­ний . Мы ограничились только двумя, так как наша задача за­ключалась в выборе наилучшей функции из перечня предло­женных выше.

Модификацией теста Бокса-Кокса является преобразование Зарембки, которое применяется для сопоставления только двух форм зависимой переменной – непреобразованной и прологарифмированной.


Поделиться:



Популярное:

Последнее изменение этой страницы: 2016-03-25; Просмотров: 1159; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.031 с.)
Главная | Случайная страница | Обратная связь