Построение прямых линий регрессии по выборочным данным

⇐ ПредыдущаяСтр 17 из 22Следующая ⇒

Две случайные величины могут быть связаны либо функциональной зависимостью, либо быть независимыми, либо связаны зависимостью другого рода, называемой статистической (иначе стохастической). Как правило, функциональная зависимость реализуется редко, так как одна или две случайные величины подвержены действию многих случайных факторов. Случайные величины независимы, если закон распределения одной из них не зависит от того, какие значения принимает другая случайная величина.

Статистической называется такая зависимость, при которой изменение одной из них влечет за собой изменение распределения другой. В частности, если при изменении одной из величин изменяется среднее значение другой, статистическую зависимость называют корреляционной.

Приведем примеры статистической зависимости.

Примеры. Рост X школьников и их возраст Y; месячная зарплата рабочих предприятия X и их месячный расход на бензин Y; тоннаж X, перевезенный за определенный период времени товарными поездами по железной дороге и Y – автотранспортом; количество удобрений X, внесенных на 1 га и урожай Y с этого участка.

О влиянии курения на рак легких. Статистические данные указывают, что процент заболевания раком легких среди тех, кто выкуривает много сигарет в день, гораздо выше, чем среди тех, кто курит мало или не курит вообще. Это указывает на связь, но не на причину заболевания. Не может ли совершенно другая причина вызывать как интенсивное курение, так и рак легких без какой-либо причинно-следственной связи между ними? Могут существовать, например, генетические особенности, которые делают человека более восприимчивым к раку легких и в то же время служат причиной вспыльчивого характера, а поэтому склонности к курению для успокоения нервов? Р. Фишер, известный как генетик не меньше, чем как статистик, рассуждал практически также.

Роль табака как фактора, вызывающего рак легких, была установлена точно лишь тогда, когда из него выделили канцерогены-вещества, тесно связанные со смолой, содержащейся в табаке; было также доказано, что они легче поглощаются организмом из сигарет, чем из сигар или трубочного табака. Таким образом, биохимические исследования подтверждают предполагаемую статистическую связь между курением и раком легких.

Пусть изучается система количественных признаков . В результате опытов выборочные данные могут быть несгруппированными и сгруппированными.

В первом случае (несгруппированных данных) в результате n независимых опытов получены n пар чисел: , которые могут быть представлены в виде таблицы:

Таблица 7.4.1

X			...
Y			...

Во втором случае (случай сгруппированных данных) мы имеем дело с корреляционной таблицей. В ней перечислены значения случайных величин Х и У, а также их частоты , равные числу появлений в выборке пары ( )(табл. 7.4.2).

Если количество значений X и Y велико или эти величины распределены непрерывно, то производится группировка их значений по интервалам. В этом случае и представляют собой середины соответствующих интервалов:

Таблица 7.4.2

X/Y	y₁	y₂	...	y_j	...	y_l	n_x
x₁	n₁₁	n₁₂	...	n_1j	...	n_1l
x₂	n₂₁	n₂₂	...	n_2j	...	n_2l
...	...	...	...	....	...	...	...
x_i	n_i1	n_i2	...	n_ij	...	n_il
...	...	...	...	...	...	...	...
x_k	n_k1	n_k2	...	n_kj	...	n_kl
n_y			...		...		n

Корреляционная таблица содержит всю информацию, полученную в результате выборки наблюдаемых величин X и Y объемом n.

Условным средним называют среднее арифметическое наблюдавшихся значений Y, соответствующих X = x.

Условным средним называют среднее арифметическое наблюдавшихся значений X, соответствующих Y= y.

С помощью корреляционной табл. 7.4.2 для каждого значения можно построить условное эмпирическое распределение случайной величины Y. В табл. 7.4.3 перечислены все значения случайной величины Y, а также соответствующие частоты:

Таблица 7.4.3

Y			.....		.....
n_x			.....		.....

На основании табл. 7.4.3 можно определить условное среднее :

Если подобным образом определить условные средние значения Y , то можно составить таблицу, в первой строке которой перечислены все встречающиеся в выборке значения величины X, а во второй - соответствующие условные средние значения величины Y (Табл. 7.4.4).

Таблица 7.4.4

X			.....		.....
			.....		.....

Таблицу 7.4.4 можно рассматривать как зависимость условного среднего значения Y от величины X, т.е. корреляционную зависимость.

Если построить точки ( ) в прямоугольной системе координат, то характер расположения этих точек, построенных по выборочной статистической совокупности, может привести к предположению о форме корреляционной зависимости Y от X.

Действительно, если указанные точки расположены приближенно вдоль прямой линии (рис. 7.4.1), естественно высказать предположение о существовании линейной корреляционной зависимости между изучаемыми величинами. Если же точки расположены приближенно вдоль параболы (рис. 7.4.2) – о квадратичной корреляционной зависимости.

Рис. 7.4.1 Рис. 7.4.2

Аналогично, с помощью корреляционной табл. 7.4.2 для каждого значения можно составить таблицу эмпирического распределение величины X.

Таблица 7.4.5

X			.....		.....
			.....		.....

Условное среднее можно вычислить по формуле:

Вычисляя условные средние , составим таблицу, отражающую экспериментальную зависимость условного среднего значения от Y.

Таблица 7.4.6

Y			...		...
			...		...

Построив в прямоугольной системе координат точки , по характеру их расположения можно высказать предположение о форме корреляционной зависимости величины X от Y.

Рассмотрим случай, когда есть основания предполагать наличие линейной корреляционной зависимости между величинами X и Y (в генеральной совокупности их значений), т.е. когда линейные уравнения регрессии имеют вид

, (7.4.1)

. (7.4.2)

В этих случаях для описания корреляционных зависимостей между величинами X и Y по результатам выборочных наблюдений вводят выборочные уравнения линейной регрессии Y на X и X на Y:

, (7.4.3)

, (7.4.4)

где – выборочные коэффициенты линейной регрессии, имеющие смысл выборочных оценок коэффициентов A и C в формулах (7.4.1) и (7.4.2). При этом , являются оценками условных математических ожиданий и , а параметры и – оценками и .

1. Нахождение параметров выборочных уравнений прямой линии регрессии по несгруппированным данным

Пусть в результате n независимых опытов получены n пар значений системы ( ): , которые могут быть заданы табл. 7.5.1. По этим статистическим данным найдем сначала параметры (коэффициенты) уравнения (7.4.3) регрессии Y на X: .

Так как различные значения X и соответствующие им значения наблюдались по одному разу, то группировать данные нет необходимости; также нет надобности использовать понятие условной средней, поэтому уравнение (7.4.3) можно записать

. (7.4.5)

Подберем параметры и так, чтобы точки , построенные по данным наблюдениям на плоскости , лежали как можно ближе к прямой (7.4.5). Разность является отклонением ординаты , вычисленной с помощью уравнения (7.4.5) при от наблюдаемой ординаты, соответствующей значению . Используем в дальнейшем метод наименьших квадратов, а именно подберем параметры и так, чтобы сумма квадратов отклонений была минимальной, т.е. составим функцию (вместо будем писать ): .

Исследуя функцию на минимум, приравняем нулю ее частные производные первого порядка:

, .

Выполняя в последних уравнениях элементарные преобразования и применяя безындексную форму (вместо пишем ), получим систему двух линейных уравнений относительно и :

. (7.4.6)

Решив эту систему, получим:

, . (7.4.7).

Аналогично можно найти выборочные уравнения прямой линии регрессии X на Y:

. (7.4.8)

Формулы для параметров и имеют вид

, (7.4.9)

2. Нахождение параметров выборочных уравнений прямой линии регрессии по сгруппированным данным

Пусть теперь статистические данные сгруппированы и заданы в виде корреляционной табл. 7.5.2. Перепишем систему уравнений (7.4.6) так, чтобы она отражала данные корреляционной таблицы. Для этого учтем следующие тождества:

В результате вместо системы (7.4.6) получим систему уравнений:

(7.4.10)

Решив эту систему, найдем параметры и уравнения прямой линии регрессии:

, (7.4.11)

, . (7.4.12)

Однако иногда уравнение регрессии (7.4.11) удобно записать в другой форме, вводя выборочный коэффициент корреляции. Найдя из второго уравнения (7.4.10) и подставив его в уравнение (7.4.11), получим:

. (7.4.13)

Если ввести соотношение , где

, (7.4.14)

является выборочным коэффициентом корреляции, уравнение (7.4.13) может быть представлено в следующем виде:

. (7.4.15)

Оно называется выборочным уравнением регрессии Y на X.

Аналогично находится выборочное уравнение линейной регрессии X на Y:

. (7.4.16)

Задача 7.5.1. Методами корреляционного анализа исследовать зависимость между урожайностью пшеницы и картофеля на соседних участках на основании статистических данных (США). Построить выборочное уравнение линейной регрессии.

Годы	1926	1927	1928	1929	1930	1931	1932	1933
Урожайность пшеницы (ц)	20,1	23,6	26,3	19,9	16,7	23,2	31,4	33,5
Урожайность картофеля (т)	7,2	7,1	7,4	6,1	6,0	7,3	9,4	9,2

Решение: Составим вспомогательную таблицу

i
1	20,1	7,2	404,01	51,84	144,72
2	23,6	7,1	556,96	50,41	167,56
3	26,3	7,4	691,69	54,76	194,62
4	19,9	6,1	396,01	37,21	121,39
5	16,7	6,0	278,89	36,0	100,2
6	23,2	7,3	538,24	53,29	169,36
7	31,4	9,4	985,96	88,36	295,16
8	33,5	9,2	1122,25	84,64	308,2
	= 194,7	= 59,7	= 4974,01	= 456,51	= 1501,21

Выборочное уравнение линейной регрессии Y на X имеет вид

коэффициенты которого и вычисляются по формулам (7.4.7).

Используя вспомогательную таблицу, получим

, .

Таким образом, уравнение линейной регрессии Y на X имеет вид

Аналогично уравнение линейной регрессии X на Y имеет вид

где коэффициенты и вычисляются по формуле (7.4.9), имеем

, .

Таким образом, уравнение линейной регрессии X на Y имеет вид

7.5. Нахождение оценки для коэффициента корреляции
двух случайных величин

Пусть над системой случайных величин (X, Y) произведено в одинаковых условиях n независимых опытов. Результаты опытов:

(7.5.1)

являются независимыми системами случайных величин, математические ожидания, дисперсии и корреляционные моменты которых одинаковы, т.е.

Требуется на основании статистических данных (7.5.1) найти оценки этих числовых характеристик системы.

Для математических ожиданий и дисперсий компонент системы имеем известные формулы для их оценок:

. (7.5.2)

Так как корреляционный момент равен , будем искать оценку для него в виде

(7.5.3)

причем в силу равноточности измерений . Неизвестный коэффициент определяется из условия несмещенности оценки (7.5.3):

После преобразования выражений, стоящих под знаком суммы, получим несмещенную, состоятельную оценку для корреляционного момента

(7.5.4)

Выборочный коэффициент корреляции определяется по формуле

. (7.5.5)

Вместо формул (7.5.4) и (7.5.5) для выборочного коэффициента корреляции полезно иметь расчетные формулы, использующие статистические данные (7.5.1).

Имеем

Таким образом, для выборочного коэффициента корреляции имеем следующую формулу:

. (7.5.6)

Если использовать вместо “исправленных” выборочных дисперсий и выборочные дисперсии и , то с использованием формулы их связи вместо формулы (7.5.6) получим:

. (7.5.7)

Если использовать сгруппированные статистические данные, несложно получить вместо (7.5.7) для выборочного коэффициента корреляции следующую расчетную формулу:

. (7.5.8)

Выборочный коэффициент корреляции является оценкой коэффициента корреляции .

Задача 7.5.1. Используя данные задачи 7.4.1, найти выборочный коэффициент корреляции.

Решение. По полученным данным вспомогательной таблицы решения задачи 7.4.1, найдем сначала выборочные средние , а также выборочные дисперсии :

Используя формулу (7.5.7), имеем .

⇐ Предыдущая 12 13 14 15 161718 19 20 21 Следующая ⇒

Последнее изменение этой страницы: 2019-05-08; Просмотров: 255; Нарушение авторского права страницы