Лабораторная работа №6 Простая линейная регрессия
Изучение теории вопроса
| Статистический анализ двумерных данных.
Анализ двумерных данных включает в себя три основных цели:
1. Описание и понимание взаимосвязи.
2. Прогнозирование и предсказание нового наблюдения.
3. Корректировка и управление процессом.
Существует два вида анализа двумерных данных, представленных переменными X и Y:
Регрессионный анализ, определяет форму (вид) связи между этими переменными.
Регрессионный анализ всегда проводится после корреляционного анализа, когда между переменными установлено наличие взаимосвязи.
Регрессионный анализ используется для прогнозирования одной переменной на основании другой (как правило, Y на основании X), или показывает, как можно управлять одной переменной с помощью другой.
Определение формы зависимости между переменными X и Y является одной из главных задач регрессионного анализа.
Для этого необходимо построить уравнение регрессионной связи между Y и X (уравнение регрессии) следующего вида:
Y = f(x) + e,
где f(x) - функцией регрессии,
e – величина, учитывающая случайные воздействия.
Для выборочных данных уравнение регрессионной связи удобно представить следующим образом:
При наличии случайной составляющей ei значения yi имеют определенный разброс.
Поэтому нет смысла подбирать функцию регрессии, проходящую через все точки.
Основное правило подбора вида функции регрессии заключается в том, чтобы все точки диаграммы рассеяния были сконцентрированы около графика этой функции.
На практике, поскольку мы располагаем выборочными данными, невозможно точно построить функцию регрессии, можно только получить ее оценку, которую обозначим как .
Уравнение, включающее оценку для функции регрессии, называется выборочным уравнением регрессии и имеет вид:
.
Построив «выборочную» функцию регрессии далее необходимо проверить достоверность функции и ее параметров, а также провести оценку неизвестных значений (прогноз) зависимой переменной Y.
Простейшей, с точки зрения анализа, является линейная взаимосвязь между X и Y, которая выражается в том, что точки на диаграмме рассеяния случайным образом группируются вдоль прямой линии, имеющей наклон (вверх или вниз).
По выборке можно построить выборочную линейную функцию регрессии вида , которая является оценкой линейной функции регрессии f(x, b0, b1).
Таким образом, выборочное уравнение линейной регрессии имеет вид:
.
Коэффициенты b0, b1 являются оценками параметров b0, b1.
Для вычисления коэффициентов b0, b1 используется метод наименьших квадратов (МНК), который характеризуется наименьшей суммой квадратов отклонений значений переменной Y от прямой.
Это означает, что прямая на диаграмме рассеяния будет проходить «достаточно близко» к точкам (xi, yi).
Коэффициент b1 определяет наклон прямой (его часто называют коэффициентом регрессии).
При увеличении значения переменной X ровно на единицу значение переменной Y в среднем увеличивается (если b1> 0) или уменьшается (если b1< 0) на b1 единиц.
Коэффициент b0 (постоянный член, или константа регрессии) определяет сдвиг прямой, т.е. такое значение Y, когда значение X равно нулю.
При использовании МНК сдвиг определяется таким образом, чтобы прямая проходила через точку ( ), где – средние значения переменных X и Y соответственно.
В тех случаях, когда нулевое значение X лишено смысла, сдвиг рассматривается как необходимая характеристика для построения функции регрессии и его не следует интерпретировать.
| Подготовить набор исходных данных
| При регрессионном анализе рассматриваются двумерные данные.
В качестве исходных данных необходимо сформировать две последовательности величин с предположением наличия между ними взаимосвязи.
| Построить график линейной зависимости между стоимостью и площадью жилого объекта
| В Excel используются три метода построения функции линейной регрессии:
команда Добавить линию тренда,
инструмент анализа Регрессия и
соответствующие статистические функции в Мастере функций.
Инструмент анализа Регрессия помимо тех результатов, которые выдает команда Добавить линию тренда, позволяет получить дополнительную информацию о зависимости двух переменных.
| Создать файл
| - Откройте программу Excel.
- Щелкните на кнопке Сохранить на панели инструментов Стандартная.
- откройте В появившемся диалоговом окне папку Статистика и
- задайте имя файлу Простая регрессия.xls.
| Применение команды Добавить линию тренда
| | В файле Простая регрессия.xls удалите Лист1, а имя Лист1(2) замените на имя Лист1.
Закройте файл Двумерные данные.xls.
| | На диаграмме рассеяния щелкните правой кнопкой мыши на любой точке данных (Ряд1)
выберите в контекстном меню команду Добавить линию тренда…
Появится диалоговое окно (см. рисунок ниже).
| | щелкните в диалоговом окне на вкладке Тип по пиктограмме Линейная.
Откройте вкладку Параметры (см. рисунок ниже) и
выберите в области Название аппроксимирующей (сглаженной) кривой опцию автоматическое.
Убедитесь, что опция пересечение кривой с осью Y в точке: не отмечена.
1. Включите опции показывать уравнение на диаграмме и поместить на диаграмму величину достоверности аппроксимации (R^2).
2. Щелкните на кнопке ОК.
Выделите текст с уравнением регрессии и значением R2,
щелкните у его границы и перетащите на свободное место диаграммы.
| Интерпретация линии тренда
| Полученная линия тренда (иногда ее называют линией наименьших квадратов) является графиком функции регрессии, построенной на выборочных данных с использованием МНК.
Величина R2, указанная на диаграмме рассеяния, называется коэффициентом детерминации, который определяет долю изменения переменной Y в зависимости от X.
В нашем случае R2=0, 6637.
Это означает, что приблизительно 66% колебаний стоимости жилой площади связано с ее размером, а остальные 34% колебаний вызваны другими (неучтенными) факторами.
| Использование инструмента анализа Регрессия
Исследовать линейную зависимость между стоимостью и площадью жилого объекта с помощью инструмента анализа Регрессия
| | 1. Откройте файл Простая регрессия.xls.
2. Скопируйте данные с Листа1 (диапазон A1: B16) на Лист2 в такой же диапазон.
3. Выберите команду: Сервис®Анализ данных®Регрессия.
4. В диалоговом окне Регрессия установите параметры как указано ниже на рисунке.
Поясним назначение параметров диалогового окна Регрессия.
Входной интервал Y: – диапазон со значениями зависимой переменной Y, включая метку.
Входной интервал X: – диапазон со значениями независимой переменной X, включая метку.
Метки – эту опцию включают, если Входные интервалы X, Y содержат подписи сверху.
Константа - ноль – данную опцию включают только в том случае, когда вы хотите, чтобы прямая регрессии проходила через начало координат (0, 0).
Уровень надежности: – по умолчанию используется 95%-ый доверительный интервал. Для получения других доверительных интервалов устанавливают флажок и вводят уровень значимости.
Выходной интервал: – включается опция и в текстовое поле вводится ссылка (ячейка), указывающая левый верхний угол области вывода результатов.
Остатки – эту опцию включают для получения значений выборочной функции регрессии ( ) и остатков (отклонений ).
График остатков – включение этой опции позволяет получить диаграмму остатков для каждого значения переменной X.
Стандартизованные остатки – получение нормированных остатков (каждый из остатков делится на стандартное отклонение остатков). Данная процедура позволяет легко увидеть значения, выходящие за пределы.
График подбора – получение точечной диаграммы входных значений Y относительно переменной X, а также графика функции регрессии. Данная диаграмма соответствует точечной диаграмме с добавлением линии тренда.
График нормальной вероятности – данная опция в Excel реализована не полностью, поэтому ее включать не следует.
5. Щелкните на кнопке ОК. Для большей наглядности полученные результаты необходимо отформатировать.
Используя клавишу [Ctrl], выделите следующие ячейки и диапазоны: D6, I11, E16: L16, D24: G24.
Выполните команду Формат®Столбец®Автоподбор ширины.
| Интерпретация регрессии
| Коэффициенты b0, b1 уравнения линейной регрессии представлены в столбце Коэффициенты.
Коэффициент Y-пересечение 18, 78946749 (ячейка E17) является постоянным членом уравнения b0, а коэффициент Площадь 0, 021010249 (ячейка E18) – коэффициентом регрессии b1.
Таким образом, уравнение регрессии имеет вид:
.
Интерпретация уравнения регрессии была приведена выше при анализе линии тренда.
В таблице ВЫВОД ОСТАТКА значения столбца Предсказанное Цена (диапазон E25: E39) являются значениями функции регрессии , которые оценивают стоимость каждого объекта недвижимости.
В столбце Остатки (диапазон F25: F39) указаны отклонения , определяющие разность между фактическими значениями и значениями функции регрессии (подобранными значениями).
Например, первый объект имеет площадь в 521 квадратный метр.
В среднем мы ожидаем, что его стоимость приблизительно равна =29, 73580748 тысяч долларов ($29736), но реальная стоимость равна $26000.
Отклонение для данного объекта (ячейка F25) составляет $26000 – $29736 = –$3736 тысяч долларов.
Следовательно, реальная стоимость меньше ожидаемой на $3736.
Для ответа на вопрос «Насколько хорошо полученная функция регрессии соответствует данным», используются четыре характеристики: стандартная ошибка, R2, t-статистика и анализ дисперсии.
Стандартную ошибку часто называют стандартной ошибкой оценки.
Ее можно интерпретировать как стандартное отклонение остатков, которое показывает, какой величины ошибку в среднем вы допускаете, когда вместо фактического значения Y используете значение функции регрессии.
Стандартная ошибка измеряется в тех же единицах, что и Y.
В ячейке E7 указана величина стандартной ошибки, равная 3, 237774407 тысяч долларов (приблизительно $3238).
Это означает, что фактическая стоимость объекта недвижимости отличается от стоимости, вычисленной с помощью полученной функции регрессии, на $3238.
В случае нормального распределения остатков можно ожидать, что примерно 2/3 точек данных находится на расстоянии не более $3238 выше или ниже прямой.
Если стандартная ошибка оценки является абсолютной мерой величины ошибок, то коэффициент детерминации R2 является относительной мерой.
Величина R2 находится в пределах от 0 до 1 и часто выражается в процентах.
Значение R2 указано в ячейке E5 и составляет приблизительно 66%.
Интерпретация R2 была дана выше при анализе линии тренда. Значение Нормированный R-квадрат, приведенное в ячейке E6, используется для сравнения с другими моделями, содержащими дополнительные независимые переменные.
Значения t-статистик в ячейках G17 и G18 являются частью проверок гипотез о наличии зависимости между переменными X и Y. Данные 15 объектов недвижимости рассматриваются как выборка из большей (генеральной) совокупности.
Выдвигается нулевая гипотеза о том, что зависимость отсутствует, т.е. коэффициент регрессии генеральной совокупности b1 для площади (переменная Х) равен нулю, а, следовательно, изменение площади не влияет на стоимость (переменная Y).
По полученным результатам коэффициент регрессии выборки b1 имеет незначительную стандартную ошибку 0, 004148397 (ячейка F18).
Это означает, что b1 и b1 мало отличаются друг от друга.
Для заданного объема выборки по t-таблице распределения Стьюдента при двустороннем 95%-ом доверительном интервале (в Excel 95%-ый Уровень надежности принят по умолчанию) определяется критическое значение t-статистики (tтабл), которое показывает на сколько стандартных ошибок выборочный коэффициент регрессии b1 может отличаться от b1=0, чтобы нулевая гипотеза оставалась истинной.
В нашем случае tтабл=2, 16, а значение t-статистики равно 5, 064667406 (ячейка G18).
Выборочный коэффициент регрессии b1 находится на расстоянии 5, 064667406 стандартных ошибок от нуля, что существенно больше, чем при tтабл (5, 064667406> 2, 16).
Следовательно, нулевая гипотеза отвергается, вычисленный коэффициент регрессии является значимым и имеется зависимость между стоимостью и площадью.
Замечание. Для многих расчетов, исходя из предположения, что выборочные данные распределены нормально, принимают tтабл=2.
В ячейке H18 приведено Р-значение 0, 00021678, которое является вероятностью получения результатов при выполнении нулевой гипотезы с 5%-ым уровнем значимости (для 5%-ого уровня значимости вероятность ошибки I рода, когда отвергается нулевая гипотеза, являющаяся истинной, равна 0, 05).
Обычно нулевую гипотезу отвергают, когда Р-значение меньше 0, 05.
В данном случае мы можем отвергнуть нулевую гипотезу об отсутствии связи.
Таблица анализа дисперсии подытоживает проверку нулевой гипотезы. Более подробно этот анализ будет рассмотрен при построении множественной модели регрессии.
| Интерпретация диаграмм регрессии
| В случае линейной регрессии инструмент анализа Регрессия строит две диаграммы регрессии:
график остатков и
график подбора.
Первоначально диаграммы располагаются справа от итоговых результатов в ячейках M1: S12.
График подбора аналогичен графику с добавлением линии тренда, за исключением того, что значения функции регрессии (Предсказанное Цена) отображаются маркерами без соединяющих линий.
Проведем форматирование диаграммы.
1. Выделите диаграмму Площадь График остатков и переместите ее в диапазон N16: S25.
2. На диаграмме Площадь График подбора щелкните правой кнопкой мыши на любом маркере Ряда «Предсказанное Цена» и
3. в контекстном меню выберите команду: Формат рядов данных…
4. В диалоговом окне на вкладке Вид в области Линия включите опцию обычная, а в области Маркер включите опцию отсутствует.
5. Щелкните на кнопке ОК.
6. Щелкните правой кнопкой мыши по Оси X (категорий) и в контекстном меню выберите команду Формат оси…
7. На вкладке Шкала в области Авто снимите флажок минимальное значение: и в текстовом поле введите значение 400, снимите флажок максимальное значение: и
8. в текстовом поле введите значение 1400, снимите флажок цена основных делений: и в текстовом поле введите значение 200.
9. На вкладке Шрифт установите Arial 8.
10. Щелкните на кнопке ОК.
11. Щелкните правой кнопкой мыши по Оси Y (значений) и
12. в контекстном меню выберите команду Формат оси…
13. На вкладке Шкала в области Авто снимите флажок минимальное значение: и
14. в текстовом поле введите значение 20, снимите флажок максимальное значение: и
15. в текстовом поле введите значение 50,
16. снимите флажок цена основных делений: и
17. в текстовом поле введите значение 10.
18. На вкладке Число в списке Числовые форматы: выберите формат Числовой и
19. установите Число десятичных знаков: равным 0.
20. На вкладке Шрифт установите Arial 8. Щелкните на кнопке ОК.
21. Выделите заголовок диаграммы и смените название на Объекты недвижимости. Установите шрифт жирный, Arial 12.
22. Выделите название оси X и смените название на Жилая площадь, в кв. метрах. Установите шрифт Arial 8.
23. Выделите название оси Y и смените название на Цена продажи, в тысячах долларов. Установите шрифт Arial 8.
24. Для легенды установите шрифт Arial 8.
25. Измените размеры диаграммы таким образом, чтобы она занимала диапазон N1: T14.
График остатков применяется для определения, является ли приемлемым приближение (в нашем случае использование МНК) для функции регрессии.
Отформатируем диаграмму.
1. Выделите заголовок диаграммы и
2. смените название на График остатков. Установите шрифт жирный, Arial 12.
3. Измените размеры диаграммы таким образом, чтобы она занимала диапазон N16: S30.
Линейное приближение считается удовлетворительным, если график остатков имеет случайный разброс точек, а прямая функции регрессии является на этом графике горизонтальной линией.
В данном случае мы имеем «хорошее» приближение.
| Использование статистических функций
| Исследовать линейную зависимость между стоимостью и площадью жилого объекта с помощью статистических функций.
| 1. Откройте файл Простая регрессия.xls.
2. Скопируйте данные с Листа1 (диапазон A1: B16) на Лист3 в такой же диапазон.
3. В ячейку F1 введите Значение, а в ячейку H1 введите Функция.
4. Выделите ячейку H2, вызовите Мастер функций и
5. в списке статистических функций выберите функцию ОТРЕЗОК.
6. В диалоговом окне Аргументы функции задайте соответствующие диапазоны переменных Y (Цена) и X (Площадь), не включая меток.
7. Щелкните на кнопке ОК.
8. В ячейке H2 будет вычислен постоянный член уравнения регрессии b0= 18, 78947.
9. Выделите ячейку H3,
10. вызовите Мастер функций и
11. в списке статистических функций выберите функцию НАКЛОН.
12. В диалоговом окне Аргументы функции задайте соответствующие диапазоны переменных Y (Цена) и X (Площадь), не включая меток.
13. Щелкните на кнопке ОК. В ячейке H3 будет вычислен коэффициент регрессии b1= 0, 02101.
14. Выделите ячейку H4,
15. вызовите Мастер функций и
16. в списке статистических функций выберите функцию СТОШYX.
17. В диалоговом окне Аргументы функции задайте соответствующие диапазоны переменных Y (Цена) и X (Площадь), не включая меток.
18. Щелкните на кнопке ОК. В ячейке H4 будет вычислена стандартная ошибка оценки 3, 2377744.
19. Как будет выглядеть уравнение регрессии?
20. Сравните с результатами, полученными с помощью инструмента анализа Регрессия.
21. Скопируйте значения из столбца H в столбец F. Для этого выделите ячейки с вычисленными значениями (H2: H4) и выполните команду: Правка®Копировать, а затем выделите ячейку F2 и выполните команду: Правка®Специальная вставка... В диалоговом окне включите опцию значения и щелкните на кнопке ОК.
22. Чтобы формулы были видны в столбце H, выберите команду Сервис®Параметры... и на вкладке Вид в области Параметры окна включите опцию Формулы. Увеличьте ширину столбца H, чтобы формулы были видны полностью.
Для предсказания цены используется функция ПРЕДСКАЗ.
Допустим, мы хотим знать цену для объекта с жилой площадью в 1000 квадратных метров.
23. В ячейку D8 введите Площадь, а в ячейку F8 введите Предсказанная цена, в ячейку H8 введите Функция. В ячейке D9 задайте значение 1000.
24. Выделите ячейку H9 и вызовите Мастер функций.
25. В списке статистических функций выберите функцию ПРЕДСКАЗ. В диалоговом окне Аргументы функции задайте значение X, выделив ячейку D9, а также соответствующие диапазоны переменных Y (Цена) и X (Площадь), не включая меток. Щелкните на кнопке ОК. В ячейке H9 будет выведена формула.
26. Выделите ячейку с формулой H9 и выполните команду: Правка®Копировать, а затем выделите ячейку F9 и выполните команду: Правка®Специальная вставка... В диалоговом окне включите опцию значения и щелкните на кнопке ОК. Какую стоимость будет иметь объект с жилой площадью в 1000 квадратных метров?
| Контрольные вопросы
11. В чем разница между корреляционным анализом и регрессионным анализом?
12. Какова основная задача регрессионного анализа?
13. Какой вид анализа (корреляционный или регрессионный) применяется в каждой из описанных ниже ситуаций?
а) Выяснение наличия какой-либо взаимосвязи между расходами на рекламу и объемом продаж.
б) Разработка системы прогнозирования эффективности портфеля ценных бумаг, основанной на изменениях одного из ведущих индексов фондовой биржи.
в) Создание инструмента формирования сметы, позволяющего выражать затраты в терминах количества произведенных изделий.
г) Анализ данных с целью определения силы взаимосвязи между моральным состоянием работников и их производительностью.
14. Какой вид имеет выборочная функция линейной регрессии?
15. С какой целью используется МНК? Чем характеризуется этот метод?
16. Чем отличается линия наименьших квадратов от других линий на диаграмме рассеяния?
17. Как интерпретируются коэффициенты линейной регрессии b0, b1.
18. Что показывает коэффициент детерминации R2? Какое значение R2 лучше, более низкое или более высокое?
19. Как интерпретируется стандартная ошибка оценки для линии регрессии? Какое значение стандартной ошибки лучше, более низкое или более высокое?
20. Какие характеристики используются при оценке значимости коэффициента регрессии?
21. Каким образом осуществляется прогнозирование в построенной линейной модели регрессии?
Популярное:
|