Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Выбор наилучшей функции регрессии
Если функциональная форма связи между показателями неизвестна, необходимо построить несколько функций регрессии и выбрать из них наилучшую. Перечень функций, которые будут рассмотрены, определяется знаниями и предположениями, экспертными оценками относительно характера связи между показателями. При прочих равных условиях критериями выбора наилучшей функции являются следующие. 1. Статистическая значимость всех параметров при независимых переменных. 2. Значимость всей функции в целом. 3. Выполнение требований Гаусса - Маркова, предъявляемых к случайным остаткам модели, в первую очередь, постоянство дисперсии и независимость друг от друга. 4. Минимальная доля остаточной дисперсии в общей дисперсии, т.е. максимальная величина коэффициента детерминации . Если модели регрессии содержат разное количество параметров, вместо следует сравнивать скорректированные коэффициенты детерминации . Сопоставление функций по коэффициентам детерминации можно проводить только в том случае, если зависимая переменная представлена в моделях в одной и той же форме. Например, в линейной, полулогарифмической, полиномиальной функциях зависимая переменная/ представлена в исходной форме: - линейная функция; - полулогарифмическая функция; - полином второй степени. В нелинейных функциях, линеаризация которых связана с преобразованием зависимой переменной, коэффициент детерминации рассчитывается для значений преобразованной переменной. Например, при логарифмировании зависимой переменной при преобразовании зависимой переменой в обратной функции Очевидно, что показатели детерминации, рассчитанные по исходным и преобразованным значениям зависимой переменной, сравнивать нельзя. Не является корректным решением и расчет коэффициента детерминации по исходным (нелинейным) функциям. Это связано с тем, что при мультипликативной связи переменных (степенная, показательная функции) параметры могут быть найдены с помощью МНК, только если случайные остатки умножаются на выровненные значения зависимой переменной, а не прибавляются к ней: ; . Если рассчитать выровненное значение зависимой переменной по исходной функции ; , то случайные остатки не могут быть вычислены как разность фактического и выровненного значений зависимой переменной, что предполагается при расчете коэффициента детерминации: ; . Аналогичный вывод можно сделать для регрессии, построенной на основе обратной функции. Случайные остатки для этой функции могут быть вычислены как . Иногда коэффициент детерминации по исходным данным можно вычислить в качестве меры приближения выровненных значений зависимой переменной к исходным. В этом случае используют формулу Полученный показатель называют квази- . Для функций, линеаризуемых путем логарифмирования правой и левой части, значения коэффициента детерминации, рассчитанные по линеаризованной регрессии и по исходной, часто имеют близкие значения. На основе данных примера 2 найдем параметры степенной функции . В линеаризованной форме она будет иметь вид . После применения МНК к данным примера 2.1, получим функцию . Коэффициент детерминации для этой функции равен . Случайными остатками в данном случае являются величины . Именно к ним предъявляются требования Гаусса — Маркова. Перейдем к исходной функции: ; Если рассчитать случайные остатки , то коэффициент детерминации будет равен . Различия между двумя показателями детерминации получились заметными (более 0, 1), однако показатель детерминации по исходной функции регрессии находится в допустимых границах [0; 1] и может быть соответствующим образом проинтерпретирован. Рассмотрим по тем же данным регрессию на основе обратной функции . После линеаризации и применения МНК падучим регрессию в линеаризованном виде: . В исходной форме эта регрессия будет иметь вид . Принимая за выровненное значение зависимой переменной значение дроби без учета случайного остатка, рассчитаем ( ) и найдем коэффициент детерминации по исходной модели. Он оказался равным . Очевидно, что это значение не имеет никакого смысла. Таким образом, мы убедились, что расчет показателя детерминации по исходным значениям преобразуемой в ходе линеаризации зависимой переменной не только некорректен, но и может привести к бессмысленному результату. Следовательно, сопоставление коэффициентов детерминации по различным нелинейным функциям не приведет к желаемому результату - выбору наилучшей функции. Процедура выбора наилучшего преобразования зависимой переменной была предложена Дж. Боксом и Д. Коксом. В их честь эту процедуру называют тестом Бокса - Кокса. В ее основе лежит утверждение о том, что как исходные (наблюдаемые), так и преобразованные значения какой-либо переменной являются частными случаями реализации функции (46) при разных значениях : . (46) В частности, если то ; если то ; если то . В работе Н. Дрейпера, Г. Смита указывается, что при преобразовании по формуле (46) величина может сильно меняться, что приводит к проблемам в анализе и требует специальной программы для нахождения наилучшего значения .Поэтому предпочтительнее рассчитывать по формуле , (47) где - среднее геометрическое из значений зависимой переменной; . При применении формулы (47) преобразованное значение будет равно для ; для ; для то . Тест Бокса — Кокса заключается в поиске такого значения параметра , при котором остаточная сумма квадратов для модели с преобразованной переменной будет минимальной. Для этого необходимо выполнить следующие действия. 1. Выбрать конкретные значения . Например, . Границы интервала рассматриваемых значений можно при необходимости расширить, а шаг перебора уменьшить. Например, можно использовать интервал для от -2 до 2, а шаг уменьшить до 0, 25. Для значение высчитывается как (при использовании формулы (46)) или (при использовании формулы (47)). 2. Для каждого вычислить: - параметры регрессии , где - линейная по параметрам функция. Отметим, что функция должна быть не только линейна по параметрам, но и количество этих параметров должно быть одинаковым для всех сравниваемых функций. В противном случае дальнейшие действия по сопоставлению остаточных сумм квадратов (см. ниже) будут некорректными из-за разного числа степеней свободы этих показателей; - остаточную сумму квадратов : . 3. Выбрать с наименьшим . Соответствующее преобразование и будет наилучшим. Отметим, что модель, выбранная в качестве наилучшей, должна отвечать требованиям, перечисленным выше (параметры и уравнение регрессии должны быть значимыми, должны соблюдаться требования, предъявляемые к случайным остаткам). Так как преобразования зависимой переменной предполагают, в частности, ее логарифмирование, тест Бокса — Кокса может быть применен только если все значения этой переменной положительны. Кроме того, как отмечают в своей работе Н. Дрейпер и Г. Смит, тест Бокса - Кокса целесообразно применять, если соотношение максимального и минимального значений зависимой переменной больше 10. Предположим, например, что для показателей примера 2 рассматриваются следующие модели регрессии: линейная ; полиномиальная второй степени ; полулогарифмическая ; обратная ; степенная ; показательная . Мы не имеем теоретических оснований предпочесть ту или иную функцию и должны выбрать наилучшую опытным путем. Оценим параметры каждой из функций с помощью МНК, предварительно произведя линеаризацию нелинейных функций. Результаты расчетов параметров, оценки значимости, величины показателей детерминации приведены в табл. 8. Таблица 8. Результаты оценки параметров линейной и нелинейных функций, представленных в линеаризованной форме
Из рассмотренных функций незначимые параметры при независимых переменных имеют: - полиномиальная (второй степени); - обратная; - полулогарифмическая; - степенная. Эти функции следует исключить из процедуры выбора наилучшей функции. Таким образом, необходимо выбрать функцию из двух оставшихся — линейной и показательной. Так как зависимые переменные в линеаризованной форме этих функций различны, а соотношение максимального и минимального значений зависимой переменной больше 10 (равно 26, 11), применим тест Бокса — Кокса. Найдем уравнения регрессии и остаточные суммы квадратов для преобразованной переменной , вычисленной по формуле (47). Нас интересуют только две функции, поэтому необходимо вычислить только для двух значений : - (для непреобразованного значения зависимой переменной); - (для ). Имеем следующие результаты: - при ; ; ( ) (1, 95) (2, 82) (3, 76) (3, 43) - при ; ; ( ) (60, 17) (3, 31) (2, 53) (3, 03) Остаточная сумма квадратов при меньше, чем остаточная сумма квадратов при . Следовательно, линейная функция лучше описывает связь между переменными, чем показательная. Еще раз подчеркнем, что тест Бокса — Кокса предполагает перебор функций при большем количестве возможных значений . Мы ограничились только двумя, так как наша задача заключалась в выборе наилучшей функции из перечня предложенных выше. Модификацией теста Бокса-Кокса является преобразование Зарембки, которое применяется для сопоставления только двух форм зависимой переменной – непреобразованной и прологарифмированной. Популярное:
|
Последнее изменение этой страницы: 2016-03-25; Просмотров: 1159; Нарушение авторского права страницы