Поиск оценок коэффициентов линейной регрессии.

Математический анонс.

При решении задач методами линейного регрессионного анализа принимаются следующие допущения:

· погрешность измерения факторов существенно меньше погрешности

измерения отклика, что позволяет считать факторы детерминированными величинами;

· погрешности измерения отклика имеют нормальное распределение;

· факторы x₁, x₂,...., x_n независимые величины.

Обработка результатов эксперимента с целью получения регрессионной модели включает следующие этапы:

1. предварительная обработка результатов измерений;

2. поиск оценок коэффициентов линейной регрессии;

3. анализ остатков и выявление выбросов;

4. проверка значимости влияния факторов на отклик;

5. проверка адекватности регрессии.

Рассмотрим подробнее каждый из этих этапов при обработке результатов эксперимента уравнением линейной множественной регрессии вида (2.8).

Предварительная обработка результатов эксперимента

Основная задача предварительной обработки результатов измерений состоит в оценке качества выполненного эксперимента, т.к. “плохой” эксперимент невозможно описать какой-либо регрессией с достаточной точностью. Для этого необходимо располагать результатами измерений отклика при одинаковых условиях, т.е. результатами параллельных опытов. По ним вычисляются средние значения отклика в каждом опыте

i=1, ...., m. (2.9)

и дисперсии измерений отклика

i=1, ..., m. (2.10).

В формулах (2.9) и (2.10): L - число параллельных опытов, m - число опытов. Далее проверяется равноточность измерений. Равноточными называются опыты, выполненные с одинаковой погрешностью. Оценка равноточности выполняется по статистическому критерию Кохрена, который вычисляется по формуле:

(2.11)

где - максимальная дисперсия.

Расчётное значение сравнивается со значением G_T, которое определяется из таблицы распределения Кохрена по числу степеней свободы числителя ( f₁=L-1 ) и знаменателя ( f₂=m ) для уровня значимости р=0.05. Если G_max G_T, то с вероятностью 0.95 можно принять, что опыты равноточны и, следовательно, мы имеем «хорошие» экспериментальные данные. В этом случае можно вычислить среднюю дисперсию, которая называется дисперсией воспроизводимости и характеризует погрешность эксперимента

S²_воспр = . (2.12)

Если G_max> G_T – опыты неравноточны и экспериментальные данные не очень хорошего качества. В этом случае следует выявить опыты, выполненные с большой погрешностью. Для этого необходимо поочерёдно исключать опыты с максимальной дисперсией и каждый раз проверять оставшиеся опыты на равноточность, пока не будет выполнено условие равноточности. (В лабораторной работе исключение опытов можно не делать).

На этапе предварительной обработки целесообразно также оценить тесноту связи ( корреляцию ) между факторами и откликом. Для оценки используется корреляционная матрица, элементами которой являются коэффициенты парной корреляции. Чем больше абсолютная величина коэффициента, тем сильнее соответствующий фактор влияет на отклик. Знак коэффициента указывает на характер влияния: знак минус означает, что с увеличением фактора отклик уменьшается, а знак плюс означает, что с увеличением фактора отклик увеличивается.

Подготовка данных

Рекомендации по реализации алгоритма обработки данных в пакете STATISTICA.

Обработка результатов эксперимента с целью получения регрессионной модели выполняется по алгоритму, приведённому в математическом анонсе. При реализации каждого этапа алгоритма в пакете рекомендуется следовать рекомендациям, приведенным ниже.

1. К предварительной обработке результатов эксперимента.

Вычисление , и S²_воспр:

в меню команды Анализ выбрать Основные статистики и таблицы,

в окне Основные статистики и таблицы выбрать Описательные статистики, ОК,

в окне Описательные статистики щёлкнуть Переменные и из списка переменных выбрать S2Y, ОК,
выбрать закладку Дополнительно, всписках вычисляемых величин отметить Среднее, Сумма, Mинимум и максимум щёлкнуть ОК.

Полученные значения переписать в лабораторный журнал и в таблице данных рассчитать GMAX, подставив требуемые значения в формулу (5). Таблица с распределением Кохрена находится в специальном файле. После проверки равноточности переменной S2VOS присвоить полученное выше значение Среднее.

Вычисление корреляционной матрицы:

перейти в стартовую панель модуля Основные статистики и таблицы,
в окне Основные статистики и таблицы выбрать Парные и частные корреляции, ОК,
в окне Парные и частные корреляции щёлкнуть Квадратная матрица, в открывшемся окне выбрать переменные для анализа (Y и все X), ОК,
в окне Парные и частные корреляции щёлкнуть ОК.

Математический анонс.

При решении задач методами линейного регрессионного анализа принимаются следующие допущения:

· погрешность измерения факторов существенно меньше погрешности

измерения отклика, что позволяет считать факторы детерминированными величинами;

· погрешности измерения отклика имеют нормальное распределение;

· факторы x₁, x₂,...., x_n независимые величины.

Обработка результатов эксперимента с целью получения регрессионной модели включает следующие этапы:

1. предварительная обработка результатов измерений;

2. поиск оценок коэффициентов линейной регрессии;

3. анализ остатков и выявление выбросов;

4. проверка значимости влияния факторов на отклик;

5. проверка адекватности регрессии.

Предварительная обработка результатов эксперимента

i=1, ...., m. (2.9)

и дисперсии измерений отклика

i=1, ..., m. (2.10).

(2.11)

где - максимальная дисперсия.

S²_воспр = . (2.12)

Поиск оценок коэффициентов линейной регрессии.

Коэффициенты b_i в регрессии (2.8) определяются методом наименьших квадратов (см. математический анонс в разделе 2.1.3). из условия минимума Ф:

Если в это выражение подставить в виде (2.8), то условием минимума функции Ф будетравенство нулю её частных производных по коэффициентам:

¶ Ф/ ¶ b₀= 0, ¶ Ф/ ¶ b₁= 0, ¶ Ф/ ¶ b₂= 0, .... ¶ Ф/ ¶ b_n = 0. (2.13)

Выполнив дифференцирование, систему (2.13) можно представить в матричной форме:

X XB = X Y, (2.14)

где:

Y = X = B =

Y – вектор наблюдений, X – матрица факторов (единицы в первом столбце - значения фиктивного фактора, который вводится для расчета коэффициента b₀), размерность матрицы m*(n+1). B – вектор коэффициентов, X - транспонированная матрица факторов, размерность матрицы (n+1)*m, X X – информационная матрица, размерность матрицы (n+1)*(n+1).

Решение системы (2.14) относительно вектора B:

B= (X X)^-1 X Y, (2.15)

где (X X)^-1 - обратная матрица.

Погрешность расчета коэффициента b_i: = , i = 0, 1, … n,

где: - выборочная оценка дисперсии коэффициента регрессии b_i, которая рассчитывается по формуле

, (2.16)

- дисперсия остатков, C_ii– диагональный элемент матрицы .

(2.17)

12	Поделиться: