![]() |
Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Построение прямых линий регрессии по выборочным данным
Две случайные величины могут быть связаны либо функциональной зависимостью, либо быть независимыми, либо связаны зависимостью другого рода, называемой статистической (иначе стохастической). Как правило, функциональная зависимость реализуется редко, так как одна или две случайные величины подвержены действию многих случайных факторов. Случайные величины независимы, если закон распределения одной из них не зависит от того, какие значения принимает другая случайная величина. Статистической называется такая зависимость, при которой изменение одной из них влечет за собой изменение распределения другой. В частности, если при изменении одной из величин изменяется среднее значение другой, статистическую зависимость называют корреляционной. Приведем примеры статистической зависимости. Примеры. Рост X школьников и их возраст Y; месячная зарплата рабочих предприятия X и их месячный расход на бензин Y; тоннаж X, перевезенный за определенный период времени товарными поездами по железной дороге и Y – автотранспортом; количество удобрений X, внесенных на 1 га и урожай Y с этого участка. О влиянии курения на рак легких. Статистические данные указывают, что процент заболевания раком легких среди тех, кто выкуривает много сигарет в день, гораздо выше, чем среди тех, кто курит мало или не курит вообще. Это указывает на связь, но не на причину заболевания. Не может ли совершенно другая причина вызывать как интенсивное курение, так и рак легких без какой-либо причинно-следственной связи между ними? Могут существовать, например, генетические особенности, которые делают человека более восприимчивым к раку легких и в то же время служат причиной вспыльчивого характера, а поэтому склонности к курению для успокоения нервов? Р. Фишер, известный как генетик не меньше, чем как статистик, рассуждал практически также. Роль табака как фактора, вызывающего рак легких, была установлена точно лишь тогда, когда из него выделили канцерогены-вещества, тесно связанные со смолой, содержащейся в табаке; было также доказано, что они легче поглощаются организмом из сигарет, чем из сигар или трубочного табака. Таким образом, биохимические исследования подтверждают предполагаемую статистическую связь между курением и раком легких. Пусть изучается система количественных признаков В первом случае (несгруппированных данных) в результате n независимых опытов получены n пар чисел: Таблица 7.4.1
Во втором случае (случай сгруппированных данных) мы имеем дело с корреляционной таблицей. В ней перечислены значения случайных величин Х и У, а также их частоты Если количество значений X и Y велико или эти величины распределены непрерывно, то производится группировка их значений по интервалам. В этом случае Таблица 7.4.2
Корреляционная таблица содержит всю информацию, полученную в результате выборки наблюдаемых величин X и Y объемом n. Условным средним Условным средним С помощью корреляционной табл. 7.4.2 для каждого значения Таблица 7.4.3
На основании табл. 7.4.3 можно определить условное среднее Если подобным образом определить условные средние значения Y Таблица 7.4.4
Таблицу 7.4.4 можно рассматривать как зависимость условного среднего значения Y от величины X, т.е. корреляционную зависимость. Если построить точки ( Действительно, если указанные точки расположены приближенно вдоль прямой линии (рис. 7.4.1), естественно высказать предположение о существовании линейной корреляционной зависимости между изучаемыми величинами. Если же точки расположены приближенно вдоль параболы (рис. 7.4.2) – о квадратичной корреляционной зависимости. Рис. 7.4.1 Рис. 7.4.2 Аналогично, с помощью корреляционной табл. 7.4.2 для каждого значения Таблица 7.4.5
Условное среднее Вычисляя условные средние Таблица 7.4.6
Построив в прямоугольной системе координат точки Рассмотрим случай, когда есть основания предполагать наличие линейной корреляционной зависимости между величинами X и Y (в генеральной совокупности их значений), т.е. когда линейные уравнения регрессии имеют вид В этих случаях для описания корреляционных зависимостей между величинами X и Y по результатам выборочных наблюдений вводят выборочные уравнения линейной регрессии Y на X и X на Y: где
1. Нахождение параметров выборочных уравнений прямой линии регрессии по несгруппированным данным
Пусть в результате n независимых опытов получены n пар значений системы ( Так как различные значения X и соответствующие им значения Подберем параметры Исследуя функцию
Выполняя в последних уравнениях элементарные преобразования и применяя безындексную форму (вместо Решив эту систему, получим:
Аналогично можно найти выборочные уравнения прямой линии регрессии X на Y:
Формулы для параметров
2. Нахождение параметров выборочных уравнений прямой линии регрессии по сгруппированным данным
Пусть теперь статистические данные сгруппированы и заданы в виде корреляционной табл. 7.5.2. Перепишем систему уравнений (7.4.6) так, чтобы она отражала данные корреляционной таблицы. Для этого учтем следующие тождества:
В результате вместо системы (7.4.6) получим систему уравнений:
Решив эту систему, найдем параметры
Однако иногда уравнение регрессии (7.4.11) удобно записать в другой форме, вводя выборочный коэффициент корреляции. Найдя Если ввести соотношение
является выборочным коэффициентом корреляции, уравнение (7.4.13) может быть представлено в следующем виде:
Оно называется выборочным уравнением регрессии Y на X. Аналогично находится выборочное уравнение линейной регрессии X на Y: Задача 7.5.1. Методами корреляционного анализа исследовать зависимость между урожайностью пшеницы и картофеля на соседних участках на основании статистических данных (США). Построить выборочное уравнение линейной регрессии.
Решение: Составим вспомогательную таблицу
Выборочное уравнение линейной регрессии Y на X имеет вид
коэффициенты которого Используя вспомогательную таблицу, получим
Таким образом, уравнение линейной регрессии Y на X имеет вид
Аналогично уравнение линейной регрессии X на Y имеет вид
где коэффициенты
Таким образом, уравнение линейной регрессии X на Y имеет вид
7.5. Нахождение оценки для коэффициента корреляции Пусть над системой случайных величин (X, Y) произведено в одинаковых условиях n независимых опытов. Результаты опытов:
являются независимыми системами случайных величин, математические ожидания, дисперсии и корреляционные моменты которых одинаковы, т.е.
Требуется на основании статистических данных (7.5.1) найти оценки этих числовых характеристик системы. Для математических ожиданий и дисперсий компонент системы
Так как корреляционный момент равен
причем в силу равноточности измерений
После преобразования выражений, стоящих под знаком суммы, получим несмещенную, состоятельную оценку для корреляционного момента
Выборочный коэффициент корреляции определяется по формуле Вместо формул (7.5.4) и (7.5.5) для выборочного коэффициента корреляции полезно иметь расчетные формулы, использующие статистические данные (7.5.1). Имеем Таким образом, для выборочного коэффициента корреляции имеем следующую формулу: Если использовать вместо “исправленных” выборочных дисперсий Если использовать сгруппированные статистические данные, несложно получить вместо (7.5.7) для выборочного коэффициента корреляции следующую расчетную формулу: Выборочный коэффициент корреляции Задача 7.5.1. Используя данные задачи 7.4.1, найти выборочный коэффициент корреляции. Решение. По полученным данным вспомогательной таблицы решения задачи 7.4.1, найдем сначала выборочные средние
Используя формулу (7.5.7), имеем |
Последнее изменение этой страницы: 2019-05-08; Просмотров: 255; Нарушение авторского права страницы