Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Кафедра «Прикладная математика и информатика».Стр 1 из 3Следующая ⇒
Имени Ярослава Мудрого. Кафедра «Прикладная математика и информатика». Курсовая работа по дисциплине «Математическая статистика» на тему: “Исследование регрессии на основе численных данных” Преподаватель: Токмачев М.С. Студент группы № 3311 Jannat
Новгород Великий 2005 ПЛАН Теоретическая часть Понятие регрессии Постоянная и случайная составляющие случайной переменой Модель парной линейной регрессии Регрессия по методу наименьших квадратов 5. Качество оценки: коэффициент R² Точность коэффициентов регрессии Доверительные интервалы F -статистика Практическая часть I. Исследование регрессии при выборке из генеральной совокупности N(0; 1) II. Исследование регрессии при выборке из генеральной совокупности N(0; 0, 5) III. Исследование регрессии при выборке из генеральной совокупности N(0; 2) Заключение
Теоретическая часть
Понятие регрессии Условное математическое ожидание M(Y|X=x) случайной переменной Y, рассматриваемое как функция x, т.е. M(Y|X=x)=f(x), называется функцией регрессии случайной переменной Y относительно X (или функцией регрессии Y по X). Точно также условное математическое ожидание M(X|Y=y), случайной переменной X, т.е. M(X|Y=y)=f(x), называется функцией регрессии случайной переменной X относительно Y (или функцией регрессии X по Y). Функции регрессии выражают математическое ожидание переменной Y (или X) для случая, когда другая переменная принимает определённое числовое значение, или, иначе говоря, функция M(Y|X=x) показывает, каково будет в среднем значение случайной переменной Y, если переменная X принимает значение x. Всё сказанное справедливо и для функции M(X|Y=y). Становится очевидным, что функция регрессии имеет важное значение при статистическом анализе зависимостей между переменными и может быть использована для прогнозирования одной из случайных переменных, если известно значение другой случайной переменной. Точность такого прогноза определяется дисперсией условного распределения. Несмотря на важность понятия функции регрессии, возможности её практического применения весьма ограничены. Для оценки функции регрессии необходимо знать аналитический вид двумерного распределения (X, Y). Только зная вид этого распределения, можно точно определить вид функции регрессии, а затем оценить его параметры. Однако для подобной оценки мы чаще всего располагаем лишь выборкой ограниченного объёма, по которой нужно найти вид двумерного распределения (X, Y), а затем вид функции регрессии. Это может привести к значительным ошибкам, т.к. одну и ту же совокупность точек (xi, yi) на плоскости можно одинаково успешно описать с помощью различных функций. Для характеристики формы связи при изучении корреляционной зависимости пользуются понятием кривой регрессии. Кривой регрессии Y по X (или Y по X) называется условное среднее значение случайной переменной Y (Х), рассматриваемой как функция от x (у). Эта функция обладает одним замечательным свойством: она даёт наименьшую среднюю погрешность оценки прогноза. Постоянная и случайная составляющие случайной переменой Часто вместо рассмотрения случайной величины как единого целого можно и удобно разбить ее на постоянную и чисто случайную составляющие, где постоянная составляющая всегда есть ее математическое ожидание. Если x случайная переменная и m - ее математическое ожидание, то декомпозиция случайной величины записывается следующим образом: x= m+u, где u чисто случайная составляющая (в регрессионном анализе она обычно представлена случайным членом)
Модель парной линейной регрессии Коэффициент корреляции показывает, что две переменные связаны друг с другом, однако не дает представления о том, каким образом они связаны. Рассмотрим простейшую модель: y=a+bx+u Величина y рассматривается как зависимая переменная, состоящая из: 1. неслучайной составляющей a+bx, где x выступает как объясняющая (или независимая) переменная, а постоянные величины a и b - как параметры уравнения 2. случайного члена u На графиках подбора в проделанной работе мы видим Y предсказанное (■ ) и Y полученное. На них показано, как комбинация этих двух составляющих определяет величину Y. Показатели Xi – это гипотетические значения объясняющей переменной. Если бы соотношение между Y и X было точным, то соответствующие значения Y были бы представлены Y предсказанное (■ ). Наличие случайного члена приводит к тому, что в действительности значение Y получается другим. Задача регрессионного анализа состоит в получении оценок a и b и, следовательно, в определении положения прямой по точкам. Очевидно, что чем меньше значения u, тем легче эта задача. Действительно, если бы случайный член отсутствовал вовсе, то точки Y совпадали бы с точками Y предсказанное и точно бы показали положение прямой. В этом случаю было бы достаточно просто построить эту прямую и определить значения a и b. Почему существует случайный член: 1. Невключение объясняющих переменных. Соотношение между X и Y почти всегда является очень большим упрощением. В действительности существуют другие факторы влияющие на Y, которые не учтены в формуле y=a+bx+u. Влияние факторов приводит к тому, что наблюдаемые точки лежат вне прямой. Часто происходит так, что имеются переменные, которые мы хотели бы включить в регрессионное уравнение, но не можем этого сделать потому, что не знаем, как их измерить, например психологические факторы. Возможно, что существуют также другие факторы, которые мы можем измерить, но которые оказывают такое слабое влияние, что их не стоит учитывать. Кроме того, могут быть факторы, которые являются существенными, но которые мы из-за отсутствия опыта таковыми не считаем. Объединив все эти составляющие, мы получаем то, что обозначено как u. 2. Агрегирование переменных. во многих случаях рассматриваемая зависимость – это попытка объединить вместе некоторое число соотношений. Так как отдельные соотношения, вероятно, имеют разные параметры, любая попытка определить соотношение между ними является лишь аппроксимацией. Наблюдаемое расхождение при этом приписывается наличию случайного члена. 3. Неправильное описание структуры модели. Структура модели может быть описана неправильно или не вполне правильно. Иногда может показаться, что существует зависимость между Y и X, но это будет лишь аппроксимация, и расхождение вновь будет связано с наличием случайного члена. 4. Неправильная функциональная спецификация. Функциональное соотношение между Y и X математически может быть определено неправильно. Например, истинная зависимость может не являться линейной, а быть более сложной. Безусловно, надо постараться избежать возникновения этой проблемы, используя подходящую математическую формулу, но любая самая изощренная формула является лишь приближением, и существующее расхождение вносит вклад в остаточный член. 5. Ошибки измерения. Если в измерении одной или более взаимосвязанных переменных имеются ошибки, то наблюдаемые значения не будут соответствовать точному соотношению, и существующее расхождение будет вносить вклад в остаточный член. Остаточный член является суммарным проявлением всех этих факторов. Очевидно, что если бы вас интересовало только измерение влияния X на Y, то было бы значительно удобнее, если бы остаточного члена не было. Если бы он отсутствовал, мы бы знали, что любое изменение Y от наблюдения к наблюдению вызвано изменением X, и смогли бы точно вычислить b. Однако в действительности каждое изменение Y отчасти вызвано изменением u, и это значительно усложняет жизнь.
Доверительные интервалы Вопрос стоит в том, насколько сильно гипотетическое значение может отличаться от результата эксперимента, прежде чем они станут несовместимыми. Гипотетическое значение β является совместимым с результатом оценивания регрессии (b), если оно удовлетворяет двойному неравенству: b-с.о.(b)*tкрит < β < b+с.о.(b)* tкрит
Любое гипотетическое значение β, которое удовлетворяет этому соотношению, будет автоматически совместимо с оценкой b, иными словами, не будет опровергаться ею. Множество этих значений, определенных как интервал между нижней и верхней границами неравенства, известно как доверительный интервал для величины β.
F -статистика F-статистика используется для проверки качества оценивания регрессии и записывается как отношение объясненной суммы квадратов (в расчете на одну независимую переменную к остаточной сумме квадратов) в расчете на одну степень свободы SS – сумма квадратов отклонений (с.к.о.) Df – число степеней свободы (с.с.) MS – с.к.о. деленная на с.с. F-статистика – MS регрессии деленная на MS остатка
Задание Необходимо исследовать регрессию на основе численных данных. Задана истинная зависимость: y=a+bx, x∈ [a, b] Вариант №10 y=4+3x, x∈ [5, 20] Практическая часть I. Задана истинная зависимость y = 3*x + 4, x принадлежит промежутку [5; 20]. 1. На промежутке [5; 20] выберем 30 значений, равноудаленных от соседних, таким образом, составим выборку для X. Вычислим для этой выборки значения Y:
2. Используя генератор случайных чисел, находим по 30 значений Ui, Vi.Выборку производим из нормальной генеральной совокупности N(0; 1).
3. Полагая вместо Xi значения X+Ui, а вместо Yi — Y+Vi, получим две зависимые выборки:
4. По полученным значениям находим уравнение линейной регрессии (Excelà Анализ данныхà Регрессия) y = 2, 959989002*x+ 4, 977076691 а также: коэффициент детерминации R2 0, 957421057 II. 1. Используя генератор случайных чисел, находим по 30 значений Ui, Vi.Выборку производим из генеральной совокупности N(0; 0, 5).
2. Затем, полагая вместо Xi значения X+Ui, а вместо Yi — Y+Vi, получим две зависимые выборки и найдем по полученным значениям уравнение линейной регрессии.
y= 3, 057386713*x+ 3, 849828606 коэффициент детерминации R2: 0, 987296367 доверительные интервалы для коэффициентов: Y: (2, 091385142; 5, 608272069) X: (2, 923132377; 3, 191641049). стандартные ошибки коэффициентов: Y: 0, 85844335 X: 0, 065540772 F-статистика: 2176, 094.
Остатки и стандартные остатки:
Новое уравнение регрессии сравним с первоначальным: y = 3*x + 4 y= 3, 057386713*x+ 3, 849828606 Коэффициент при переменной X отклоняется от истинного значения приблизительно на 0, 0574 При этом константа изменяется по сравнению с заданной приблизительно на 0, 8498.
3. Изменяя только Yi(Yi = Y + Vi) и оставляя неизменными X, получим пару выборок, снова найдем уравнение линейной регрессии.
y= 3, 00165434*x+4, 06592825 коэффициент детерминации R2: 0, 998303894 доверительные интервалы для коэффициентов: Y: (3, 429737572; 4, 702118928) X: (2, 953758975; 3, 049549705). стандартные ошибки коэффициентов: Y: 0, 310577888 X: 0, 023381734 F-статистика: 16480, 40672.
Остатки и стандартные остатки:
Новое уравнение регрессии сравним с первоначальным: y = 3*x + 4 y= 3, 00165434*x+4, 06592825 Коэффициент при переменной X отклоняется от истинного значения приблизительно на 0, 0659. При этом константа изменяется по сравнению с заданной приблизительно на 0, 0659. 4.Полагая вместо Vi значения 0, 5Vi; 1, 5Vi и так далее, получим новые пары выборок и вновь вычислим уравнение линейной регрессии. Vi=0, 5Vi:
Yi = Y+0, 5Vi
Уравнение регрессии: y= 3, 000827144*x+ 4, 032964241 коэффициент детерминации R2: 0, 999575198 доверительные интервалы для коэффициентов: Y: (3, 714868492; 4, 35105999) X: (2, 976879431; 3, 024774857). стандартные ошибки коэффициентов: Y: 0, 155289144 X: 0, 011690882 F-статистика: 65885, 12884.
III. 1. Используя генератор случайных чисел, находим по 30 значений Ui, Vi.Выборку производим из генеральной совокупности N(0; 2).
2. Затем, полагая вместо Xi значения X+Ui, а вместо Yi — Y+Vi, получим две зависимые выборки и найдем по полученным значениям уравнение линейной регрессии.
y= 2, 950504846*x+ 3, 41182941 коэффициент детерминации R2: 0, 913294175 доверительные интервалы для коэффициентов: Y: -1, 379711969; 8, 203370788) X: (2, 598577611; 3, 302432082). стандартные ошибки коэффициентов: Y: 2, 339152164 X: 0, 171805123 F-статистика: 294, 9310157.
Остатки и стандартные остатки:
Последнее изменение этой страницы: 2020-02-17; Просмотров: 228; Нарушение авторского права страницы Главная | Случайная страница | Обратная связь |