Доверительные интервалы для оценки среднего квадратического

⇐ ПредыдущаяСтр 3 из 8Следующая ⇒

отклонения нормального распределения. Будем искать для среднего квадратического отклонения нормально распределенной случайной величины доверительный интервал вида (s – δ, s +δ ), где s – исправленное выборочное среднее квадратическое отклонение, а для δ выполняется условие: p ( |σ – s| < δ ) = γ.

Запишем это неравенство в виде: или, обозначив ,

. (4)

Рассмотрим случайную величину χ, определяемую по формуле

которая распределена по закону «хи-квадрат» с п-1 степенями свободы. Плотность ее распределения

не зависит от оцениваемого параметра σ, а зависит только от объема выборки п. Преобразуем неравенство (4) так, чтобы оно приняло вид χ ₁ < χ < χ ₂. Вероятность выполнения этого неравенства равна доверительной вероятности γ, следовательно, Предположим, что q < 1, тогда неравенство (4) можно записать так:

или, после умножения на , . Следовательно, . Тогда Существуют таблицы для распределения «хи-квадрат», из которых можно найти q по заданным п и γ, не решая этого уравнения. Таким образом, вычислив по выборке значение s и определив по таблице значение q, можно найти доверительный интервал (4), в который значение σ попадает с заданной вероятностью γ.

Замечание. Если q > 1, то с учетом условия σ > 0 доверительный интервал для σ будет иметь границы

. (5)

Итак, для оценки генерального среднего квадратического отклонения σ при заданной надежности γ можно построить доверительный интервал вида

где s – исправленное выборочное среднее квадратическое отклонение, а

q = q (n, γ ) – значение, определяемое из таблиц.

Пример. Пусть п = 20, s = 1, 3. Найдем доверительный интервал для σ при заданной надежности γ = 0, 95. Из соответствующей таблицы находим q (n = 20, γ = 0, 95 ) = 0, 37. Следовательно, границы доверительного интервала: 1, 3(1-0, 37) = 0, 819 и 1, 3(1+0, 37) = 1, 781. Итак, 0, 819 < σ < 1, 781 с вероятностью 0, 95. ◄

Пример. Дана выборка значений нормально распределенной случайной величины: 2, 3, 3, 4, 2, 5, 5, 5, 6, 3, 6, 3, 4, 4, 4, 6, 5, 7, 3, 5. Найти с доверительной вероятностью γ = 0, 95 границы доверительных интервалов для математического ожидания и дисперсии.

Объем выборки п = 20. Найдем = 4, 25, s = 1, 37. По таблицам ([1], табл. 3 и 4) определим t (0, 95; 20) = 2, 093; q (0, 95; 20) = 0, 37. Тогда

доверительный интервал для математического ожидания;

доверительный интервал для дисперсии. ◄

Вопросы для самопроверки

1. В чем сущность задачи по определению параметров генеральной совокупности? В чем особенности этой задачи?

2. Как вычисляется средняя арифметическая выборки при малом и больших объемах ее?

3. Как вычисляется дисперсия выборки в случаях малого и большого объема ее?

4. Какая величина принимается за среднюю генеральной совокупности, а какая — за дисперсию?

5 Что понимается под доверительным интервалом и доверительной вероятностью?

6. Как вычисляется среднее квадратическое отклонение средней выборки?

7. Назовите выборочные числовые характеристики.

8. Что такое статистики и для чего они служат?

9. Какими свойствами должны обладать оценки?

10. Какова вероятность попадания генеральной средней в интервал размером ±2(+3) средних квадратических отклонений средней выборки при нормальном распределении.

11. Что называется доверительным интервалом и доверительной вероятностью?

Дайте общую схему построения доверительного интервала.

12. Как изменяется доверительный интервал с увеличением надежности? С увеличением объема выборки?

13. Как изменяется доверительный интервал в зависимости от того, известны ли другие параметры точно или нет?

14. Если доверительная вероятность будет увеличена, то как изменится доверительный интервал при других равных условиях.

15. Что надо сделать с объемом выборки, чтобы уменьшить доверительный интервал при том же значении доверительной вероятности?

ЭЛЕМЕНТЫ ТЕОРИИ КОРРЕЛЯЦИИ

Расчеты коэффициентов корреляции, регрессии достаточно трудоемки. Это объясняется тем, что приходится обрабатывать большое количество исходных данных; ведь одно наблюдение дает сразу две величины. Однако нужно иметь в виду, что если объем выборки невелик, то расчеты этих коэффициентов несложны. При малых выборках общую корреляционную таблицу не составляют, а результат наблюдений оставляют в том виде, каким он получается непосредственно в опыте, т. е. в виде так называемой простой корреляционной таблицы. В такой таблице каждому номеру наблюдений соответствует пара наблюдавшихся значений случайных величин. Конечно, вычисленный по малому числу наблюдений коэффициент в целом имеет меньшую надежность. В тех случаях, когда известен общий вид зависимости между средней одной величины и значениями другой, параметры этой зависимости могут быть найдены методом наименьших квадратов.

Линейная корреляция

Рассмотрим выборку двумерной случайной величины (Х, Y). Примем в качестве оценок условных математических ожиданий компонент их условные средние значения, а именно: условным средним назовем среднее арифметическое наблюдавшихся значений Y, соответствующих Х = х. Аналогично условное среднее - среднее арифметическое наблюдавшихся значений Х, соответствующих Y = y. Введем уравнения регрессии Y на Х и Х на Y:

M (Y / x) = f (x), M ( X / y ) = φ (y).

Условные средние и являются оценками условных математических ожиданий и, следовательно, тоже функциями от х и у, то есть

= f*(x) - (1)

- выборочное уравнение регрессии Y на Х,

= φ *(у) - (2)

- выборочное уравнение регрессии Х на Y.

Соответственно функции f*(x) и φ *(у) называются выборочной регрессией Y на Х и Х на Y, а их графики – выборочными линиями регрессии. Выясним, как определять параметры выборочных уравнений регрессии, если этих уравнений известен.

Пусть изучается двумерная случайная величина (Х, Y), и получена выборка из п пар чисел (х₁, у₁), (х₂, у₂), …, (х_п, у_п). Будем искать параметры прямой линии среднеквадратической регрессии Y на Х вида

Y = ρ _yxx + b, (3)

Подбирая параметры ρ _ух и b так, чтобы точки на плоскости с координатами (х₁, у₁), (х₂, у₂), …, (х_п, у_п) лежали как можно ближе к прямой (3). Используем для этого метод наименьших квадратов и найдем минимум функции

. (4)

Приравняем нулю соответствующие частные производные:

В результате получим систему двух линейных уравнений относительно ρ и b:

. (5)

Ее решение позволяет найти искомые параметры в виде:

. (6)

При этом предполагалось, что все значения Х и Y наблюдались по одному разу.

Теперь рассмотрим случай, когда имеется достаточно большая выборка (не менее 50 значений), и данные сгруппированы в виде корреляционной таблицы:

Y	X
x₁	x₂	…	x_k	n_y
y₁ y₂ … y_m	n₁₁ n₁₂ … n_1m	n₂₁ n₂₂ … n_2m	… … … …	n_k₁ n_k₂ … n_km	n₁₁+n₂₁+…+n_k₁ n₁₂+n₂₂+…+n_k₂ …………….. n_1m+n_2m+…+n_km
n_x	n₁₁+n₁₂+…+n_1m	n₂₁+n₂₂+…+n_2m	…	n_k₁+n_k₂+…+n_km	n=∑ n_x = ∑ n_y

Здесь n_ij – число появлений в выборке пары чисел (x_i, y_j). Поскольку , заменим в системе (5)

, где п_ху – число появлений пары чисел (х, у). Тогда система (5) примет вид:

. (7)

Можно решить эту систему и найти параметры ρ _ух и b, определяющие выборочное уравнение прямой линии регрессии:

Но чаще уравнение регрессии записывают в ином виде, вводя выборочный коэффициент корреляции. Выразим b из второго уравнения системы (7):

Подставим это выражение в уравнение регрессии: . Из (7)

, (8)

где Введем понятие выборочного коэффициента корреляции

и умножим равенство (8) на : , откуда . Используя это соотношение, получим выборочное уравнение прямой линии регрессии Y на Х вида

. (9)

Коэффициент корреляции – безразмерная величина, которая служит для оценки степени линейной зависимости между Х и Y: эта связь тем сильнее, чем ближе |r| к единице.

Для качественной оценки тесноты корреляционной связи между X и Y можно воспользоваться таблицей Чеддока (табл.1):

Таблица 1

Диапазон изменения \| r_B \|	0, 1-0, 3	0, 3-0, 5	0, 5-0, 7	0, 7-0, 9	0, 9-0, 99
Характер тесноты связи	слабая	умеренная	заметная	высокая	весьма высокая

Итак, если для выборки двумерной случайной величины (X, Y): {(x_i, y_i), i = 1, 2,..., n} вычислены выборочные средние и и выборочные средние квадратические отклонения σ _х и σ _у, то по этим данным можно вычислить выборочный коэффициент корреляции

и получить линейные уравнения, описывающие связь между Х и Y, которые называются выборочным уравнением прямой линии регрессии Y на Х:

и выборочным уравнением прямой линии регрессии Х на Y :

Пример. Для выборки двумерной случайной величины

i
x_i	1, 2	1, 5	1, 8	2, 1	2, 3	3, 0	3, 6	4, 2	5, 7	6, 3
y_i	5, 6	6, 8	7, 8	9, 4	10, 3	11, 4	12, 9	14, 8	15, 2	18, 5

вычислить выборочные средние, выборочные средние квадратические отклонения, выборочный коэффициент корреляции и составить выборочное уравнение прямой линии регрессии Y на Х.

Для определения выборочного коэффициента корреляции вычислим предварительно Тогда

Выборочное уравнение прямой линии регрессии Y на Х имеет вид: или ◄

Пример. По заданной корреляционной таблице найти выборочные средние среднеквадратические отклонения s_Χ, s_Υ, коэффициент корреляции ρ _{Χ Υ} и уравнение линейной регрессии Y на X. Вычислить условные средние по дан-ным таблицы и найти наибольшее их отклонение от значений, вычисляемых из уравнения регрессии.

Y X						n_X






n_Y

Вычислим выборочные средние и среднеквадратические отклонения для X, Y

Выборочный коэффициент корреляции между Х и У отыскивается по формуле

Согласно таблице

откуда

Выборочное линейное уравнение регрессии У на Х имеет вид

или, с учётом вычисленных значений,

Условное среднее при x = x_i вычисляется по формуле

где - число выборочных значений y_j, наблюдавшихся при данном x_i . Согласно данным из таблицы находим

Значения условных средних , отыскиваемые по уравнению регрессии:

Отклонения значений,

будут d₁ = 0-0.45=-0.45; d₂ = 2.6- 1.96 = 0.65; d₃ = -0.51, d₄ = 0.55; d₅ = -0.05;

d₆ = 0.05. Наибольшее по абсолютной величине отклонение равно 0.65. ◄

Пример. Выборочно обследовано 100 снабженческо-сбытовых предприятий некоторого региона по количеству работников X и объёмам складской реализации Y (д.е.). Результаты представлены в корреляционной таблице;

X У						n_y






n_х						n=100

По данным исследования требуется:

1) в прямоугольной системе координат построить эмпирические ломаные регрессии Y на X и X на Y, сделать предположение в виде корреляционной связи;

2) оценить тесноту линейной корреляционной связи;

3) проверить гипотезу о значимости выборочного коэффициента корреляции, при уровне значимости α =0, 05;

4) составить линейные уравнения регрессии У на X и X на У, построить их графики в одной системе координат;

5) используя полученные уравнения регрессии, оценить ожидаемое среднее значение признака Y при х=40 чел.; дать экономическую интерпретацию полученных результатов.

1. Для построения эмпирических ломаных регрессии вычислим условные средние и Вычисляем . Так как при х=5 признак Y имеет распределение

YY
n_i

то условное среднее .

При х=15 признак Y имеет распределение

Y
n_i

тогда .

Аналогично вычисляются все и .Получим таблицы, выражающие корреляционную зависимость Y от X (табл.2) и X от Y (табл.3).

Таблица 2

x
	130, 8	132, 86	135, 74	137, 08	137, 86

Таблица 3

y
	6, 25		19, 54	32, 35		43, 57

В прямоугольной системе координат построим точки А_i(х_i, ), соединив их отрезками, получим эмпирическую линию регрессии Y на X. Аналогично строятся точки В_j( , y_j) и эмпирическая линия регрессии X на Y (см. рис.).

Построенные эмпирические ломаные регрессии Y на X и X на Y свидетельствуют о том, что между количеством работающих (X) и объёмом складских реализаций (Y) существует линейная зависимость. Из графика видно, что с увеличением X величина также увеличивается, поэтому можно выдвинуть гипотезу о прямой линейной корреляционной зависимости между количеством работающих и объёмом складских реализаций.

2. Оценим тесноту связи. Вычислим выборочный коэффициент корреляции, предварительно вычислив характеристики по формулам

, , , , ,

, : ;

; ; ;

Это значение r_B говорит о том, что линейная связь между количеством работников и объемом складских реализаций высокая. Этот вывод подтверждает первоначальное предположение, сделанное исходя из графика.

3. Запишем теоретические уравнения линейной регрессии:

, .

Подставляя в эти уравнения найденные величины, получаем искомые уравнения регрессии:

1) уравнение регрессии Y на X:

, или ;

2) уравнение регрессии X на Y:

, или .

Построим графики найденных уравнений регрессии. Зададим координаты двух точек, удовлетворяющих уравнению . Пусть х = 10, тогда , А₁(10; 132, 41), Если х = 40, тогда , А₂(40; 137, 51). Аналогично находим точки, удовлетворяющие уравнению , В₁(10, 2; 131), В₂(43; 139). Графики прямых линий регрессии изображены ниже на рисунке.

Контроль: точка пересечения прямых линий регрессии имеет координаты . В нашем примере: С(29, 8; 135, 78).

4. Найдём среднее значение Y при х=40 чел., используя уравнение регрессии Y на X. Подставим в это уравнение х=40, получим

Ожидаемое в генеральной совокупности среднее значение объёма складских реализаций при заданном количестве работников (х=40) составляет 137, 51 д.е.

Замечание 1. Если в корреляционной таблице даны интервальные распределения, то за значения вариант надо брать середины частичных интервалов.

Замечание 2. Если данные наблюдений над признаками X и Y заданы в виде корреляционной таблицы с равноотстоящими вариантами, то целесообразно перейти к условным вариантам:

, ,

где h₁ – шаг, т.е. разность между двумя соседними вариантами x_i; С₁ – «ложный нуль» вариант x_i (в качестве «ложного нуля» удобно принять варианту, которая расположена примерно в середине ряда); h₂ – шаг вариант Y; С₂ – «ложный нуль» вариант Y.

В этом случае выборочный коэффициент корреляции