ВАЖНЕЙШИЕ ХАРАКТЕРИСТИКИ ВЫБОРКИ

⇐ ПредыдущаяСтр 2 из 7Следующая ⇒

Пусть мы имеем выборку (х₁; x₂,..., х_n ) объема n. Для инженера это значит, что мы сделали случайный отбор n элементов из генеральной совокупности, математик же предпочитает говорить, что мы провели n независимых наблюдений над случайной величиной X, подчиненной некоторому (известному, а чаще нет) закону. Точки х₁; x₂,..., х_n - реализации cл. величины Х - записаны в порядке их получения (в хронологической порядке).

Если эти числа записать иначе, в порядке возрастания х₁ < х₂ <...x_n, то получим упорядоченную выборку, называемую еще вариационным рядом .

Расстояние х_n – х₁между крайними членами этого ряда называется размахом вариационного ряда. эта характеристика рассеяния, разброса случайной величины.

Пример 1. Имеем выборку из нормального стандартного закона:

{0.414; -0.011; 0.666; -1.132; -0.410; -1.077; 0.734; }

число точек (объем выборки) n=7. Переставляя числа по возрастанию, получим упорядоченную выборку:

{-1.132; -1.077; -0.410; -0.011; 0.414; 0.666; 0.743}.

Размах равен 0.734-(-1.132)=2.866.

x₁=0.414 - первый элемент выборки, х⁽¹⁾=-1.132 - первый элемент вариационного ряда, аналогично x₂ =-0.011, х⁽²⁾'=-1.077.

В большинстве задач выборка и вариационный ряд несут одинаковую информацию, но с вариационным рядом легче работать в силу его упорядоченности. Все же некоторая потеря информации при упорядочивании происходит: по вариационному ряду нельзя судить о независимости наблюдений, т.е. о случайности выборки.

Рассмотрим какой-либо вариационный ряд.

---- * ----*---- * ------ * -----* ----* -----* ---- * ----- * -------------------------

x⁽¹⁾x⁽³⁾d=x⁽⁵⁾x⁽⁹⁾x

Рис.1

Найдем такую точку х на оси абсцисс, что справа и слева от нее будет одинаковое число точек выборки. Если число n точек выборки нечетно, то х совпадет с точкой x⁽ⁿ^+1)/2 вариационного ряда. Обозначим эту точку d и назовем медианой выборки. Когда же n четно, то указанных точек х, делящих выборку пополам, много, а из них нам в качестве медианы нужна одна. Чтобы ее найти, возьмем по одной ближайшей слева и справа к точке х точке ряда и за медиану примем среднее значение между ними.

Если для характеристики выборки как целого нам нужно выбрать несколько чисел, которые легко найти, то ими окажутся:

а) крайние точки - наибольшее и наименьшее х⁽ⁿ⁾ и х⁽¹⁾

б) срединное значение - медиана d.

Если мы хотим добавить еще два числа, образовав 5-числовую сводку, то естественно поступить так; мысленно отбросим точки выборки справа от медианы d и найдем медиану для оставшихся точек, назвав ее нижней квартилью выборки. Аналогично, верхняя квартиль находится как медиана для части выборки, остающейся при удалении точек слева от d. (Кварта - от латинск. quarta - четверть).

Пример 2. Дать 5-числовую сводку по выборке с n=13; -1.7;

{-0.4; 1.5; -3.2; 1.2; 0.3; 1.8; 3.0; 2.4; 4.3; 9.8, 6.4; 0.1.}

Вариационный ряд {-3.2; -1.7; -0.4; 0.1; 0.3; 1.2; 1.5; 1.8;

2.4; 3.0; 4.3. 6.4. 9.8.}

Медиана d=x⁽⁷⁾=1.5, а квартили - четвертое число от каждого конца, т.е. 0.1 и 3.0. 5-числовая сводка: -3.2; 0.1; 1.5; 3.0;

9.8.

Известный американский статистик Дж.Тыоки рекомендует такой ряд изображать в виде;

-3.2 1.5 9.8

-1.7 1.2 1.8 6.4

-0.4 0.3 2.4 4.3

0.1 3.0

а 5-числовую сводку ряда в виде схемы:

Пример 7. О чем нам говорит 5-числовая сводка:

Решение. Все 1000 наблюдений лежат на числовой оси между 10 и 500, причем неравномерно, половина слева от медианы d=70, половина справа.

Левее нижней квартили х=30 и правее верхней х=150 лежит по четвертой части всех наблюдений, а между ними половина, т.е. в каждом промежутке [10, 30], [30, 70], [70, 150] и [150, 500] лежит по 250 наблюдений.

Следует помнить, что теоретическая или истинная медиана d (медиана генеральной совокупности) является неслучайным числом, определяемым по закону распределения условием:

P(x> d)=P(x< d). Выборочная же медиана d является случайной величиной; для разных выборок из одной генеральной совокупности она примет хотя и близкие, но разные значения.

Статистическое распределение выборки - это таблица из двух строк. В верхней указаны в порядке возрастания наблюдаемые значенияx₁ (их называют вариантами), а под ними указаны соответствующие им частоты (называемые также относительными частотами, т.е. числа наблюдений, деленные на n - объем выборки).

Пример 3. Имея конкретную выборку: {2, 6, 12, 6, 6, 2, 6, 12, 12, 6, 6, 6, 12, 12, 6, 12, 2, 6, 12, 6 }(n=20) - записать вариационный ряд и статистическое распределение выборки.

Ваоиационный ряд: {2, 2, 2, 6, 6, б, 6, б, б, 6, 6, 6, 6, 12,

12, 12, 12, 12, 12, 12}.

Статистическое распределение выборки объема n=20.

Контроль: 0.15+0.5+0.35=1.

варианты x'₁
частоты Р₁	0.15	0.5	0.35

Заметим что в выборке могут быть совпадающие числа, тогда как варианты- несовпадающие числа, число их обычно меньше n.

Статистические моменты . При проведении статистического исследования истинными (или теоретическими) являются характеристики генеральной совокупности. Именно их хотел бы знать исследователь. тогда как на деле по выборке он вычисляет эмпирические характеристики - характеристики выборки.

Если формуму

применяемую для вычисления начального момента К-го порядка дискретной cл.величины, применить к статистическому распределению (заменив вероятности p₁ на частоты ₁, то получим x’

-статистический (или эмпирический) начальный момент К-го порядка; m - число вариант x'₁.

В частности,

- выборочное среднее, его обозначают .

Наряду с начальными моментами употребляют и центральные:

статистический центральный момент к-го порядка. Особенно важен второй:

- выборочная дисперсия. Ее обозначают S².

Пример 9. По упорядоченной выборке: { 4, 6, 7, 7, 10, 15, 18 }(m=7) найти первый и второй начальные статистические моменты и второй центральный.

= a = (4+б+7+7+10+15+18)/7 = 9.57.

a₂ = (4²+6²+7²+7²+10²+15^Z+18²)/7 = (16 +36 + 49 * 49 + 100 + 225 + 324)/7 = 799/7 = 114, 14.

S² = m₂ = (1/7)(4-9.57)² + (6-9.57)² + (7-9.57)2 + (7-9.57)²+ (10-9.57)² + (15-9.57)² + (18-9.57)² = (1/7)[31.02 * 12.74 + 6.60 + 6.60 + 0.18 + 29.48 + 71.06] = 157.68/7 = 22.52.

Полезной как для вычислений, так и для контроля служит формула для S², эквивалентная предыдущей и имеющая вид:

(3)

В нашем примере S² = 114.14 - 9.57² = 114.14 - 91.58 = 22.56. С ошибкой в последнем знаке выборочные дисперсии, найденные по двум формулам, совпадают. Заметим, что из-за ошибки округления вторая формула для S² требует для получения той же точности делать вычисления с большим (на 1 или 2) числом знаков.

УПРАЖНЕНИЯ.

Доказать тождество

2. Доказать, что:

а) при увеличении каждого элемента Xi выборки на 10 выборочное среднее х увеличится на 10, a S² не изменится.

б) при увеличении каждого элемента х₁ выборки в 10 раз х среднее также возрастет в 10 раз, а дисперсия S² в 100 раз.

В теории вероятностей употребляются характеристикизаконараспределения:

Деление на среднеквадратическое в соответствующей степени делает эти характеристики безразмерными. Асимметрия равна нулю для симметричных распределений, она больше нуля, если " хвост" распределения тянется вправо.

У нормального распределения асимметрия и эксцесс нулевые. Если эксцесс больше нуля, это, как правило, означает, что график плотности в окрестности моды имеет более острую и более высокую вершину, чем нормальная кривая. Для более плосковершинных, чем нормальное, распределений эксцесс отрицателен.

По выборке мы находим приближенные значения асимметрии и эксцесса, строим оценки:

асимметрия выборки = m³/ S³ (4)

эксцесс выборки = m⁴/ s⁴- 3 (5)

Когда наблюдения проводятся над системой (Х, У) двух случайных величин, то выборка состоит уже из пар чисел - значений Х и У: ( x₁., yi), (х₂, y₂ ),.... (х_n, y_n ). Поx_iмы можем построить рассмотренные статистические моменты для X, по у_i - для У. Связь между X и У, точнее, меру близости этой связи к линейной, выражает коэффициент корреляции:

Заменой средних μ _xμ _y на выборочные средние и дисперсий

на выборочные дисперсии получим оценку дляρ _{x y} - выборочный коэффициент корреляции r_xy:

(6)

Эту формулу легко преобразовать к виду:

Как иρ _{x y}, выборочный коэффициент корреляции r_xy заключен между -1 и +1. Если r_xy =±1, то точки (х₁, у₁ ) лежат строго на прямой, т.е. имеет место строгая линейная зависимость.

Пример 10. Испытана рессорная сталь на прочность прикручении и изгибе. Х - прочность при кручении, У - прочность приизгибе; (x₁, y₁) - прочность при кручении и изгибе i-ro образца стали.

Вычислить выборочный коэффициент корреляции r_xy по выборке объема n=12, заданной в двух столбцах таблицы 3.

Таблица 3

Вычисление г_xy

N	X₁	У₁	∆ X	∆ y	(∆ X)²	(∆ Y)²	(∆ X) ∆ Y
исп.
			-37	-21
			-21	-16
			-4	-3
			-7	-2


			-17	-3
				Q

				-1			-3

				-2			-2
∑			-1

∆ x обозначает разность , а ∆ у обозначает .

Сумма чисел в столбцах ∆ x и ∆ y теоретически должна всегда равняться нулю. В столбце ∆ x сумма оказалась равной -1 (а не 0), потому что вместо точного значения х=87.9 было использовано округленное значение 88.

Выборочные дисперсии:

Выборочный коэффициенткорреляции:

Как видим, в среднем прочность на кручение почти вдвое больше, чем при изгибе.

Близость коэффициента корреляции к 1 говорит о практически линейной связи между Х и У.

Статистические моменты вычисляются по случайной выборке и потому являются сл. величинами. Поэтому следует различать две вещи:

1) статистический момент как cл. величину и 2) конкретное значение этого момента, наблюденное по конкретной выборке. Для определенности рассмотрим выборочное среднее. Его следовало бы обозначить среднее X, когда выборочное среднее есть cл. величина, и обозначить среднее х, когда мы говорим о реализации х, т.е. о среднем арифметическом значении элементов конкретной выборки.

Точно так же и выборку, строго говоря, следует понимать в двух смыслах: 1) как систему (Х₁, X₂, ..., Х_n) n независимых одинаково распределенных cл. величин, у каждой из которых закон распределения тот же, что у cл. величины X, над которой проводятся наблюдения, и 2) как конкретную выборку x₁, x₂,... x_n, где x₁реализация cл. величины Х₁, ....x_n -реализация величины Х_n.

Выясним, какому закону подчиняется выборочное среднее Х=Х_n, если наблюдения проводятся над нормальной cл. величиной

Как сумма нормальных величин X₁+Х₂+...+Х_n,

числитель величины подчиняется нормальному закону. Найдем математическое ожидание и дисперсию величины «среднее X»

Таким образом (8)

Интуитивно ясно, что если взять ряд выборок (из n элементов каждая), то средние этих выборок должны вести себя куда более стабильно, чем исходная сл. величина X: меньше отклоняться μ и меньше " прыгать" от одной выборки к другой. Формула (8) это подтверждает: у величины среднее X тот же центр μ распределения, но дисперсия в n раз меньше: б²_x- = б²/n.

Пример. Каким следует взять объем выборки п, чтобы выборочное среднее подчинялось закону N(μ, 0.1), если Х ~ N(μ, 5)?

0.1 = DX = б²_x-= 5/n, n=5/0.1=50.

По поводу формулы (8) надо добавить следующее. Соотношения MX = MX и DX = DX/n выведены без учета требования нормальности.

Если число наблюдений n велико, то каким бы ни было распределение у X, в силу центральной предельной теоремы выборочное среднее Х_n подчиняется закону, близкому к нормальному; тем более близкому, чем больше n и чем ближе к нормальному закон распределения величины X. Так что формула (8) приближенно верна всегда.

С ростом объема n выборки плотность вероятности для среднее Х_n концентрируется около центра μ и имеет нормальный вид, высота графика плотности пропорциональна n^1/2

ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ

Эмпирическая функция распределения. По вариационному ряду или выборке легко построить эмпирическую функцию распределения F^*(x) - оценку истинной функции распределения F(x) = P(X< x).

= число точек выборки, лежащих левее т х на оси ох, или

доля точек выборки слева от т. х. Так, = 0.4 означает, что в выборке 40% чисел имеют значение меньшее трех.

График строим так. Двигаясь слева направо вдоль оси ох, на каждой точке х₁ ряда рисуем скачок функции, равный 1/n; между любыми соседними точками х₁ и х₁+₁ функция постоянна, т.е. график - кусочно постоянная функция, имеющая ступенчатый вид.

Слева от точки х.⁽ ¹⁾ равна О, справа от точки х.⁽ⁿ⁾ - равна 1.

Теорема Гливенко

Советским математиком Гливенко была доказана теорема: При числе испытаний, стремящихся к бесконечности эмпирическая функция распределения равномерно сходится к теоретической функции распределения.

Пример 12. Построить график для выборки:

{0.17, 1.53, 0.99, 2.04, 0.56, 1.73, 0.95, 1.25, 0.75, 1.82}, n=10.

Упорядочим выборку: {0.17, 0.56, 0.75, 0.95, 0.99, 1.25, 1.53, 1.73, 1.82, 2.04}, и нанесем точки х⁽ ¹⁾, х⁽²⁾, ..., х⁽¹⁰⁾ на ось х. Высота каждой ступеньки графика равна 1/n = 0.1 и число x n=10.

Эмпирическая функция по статистическому распределению строится точно так же, как функция распределения дискретной cл. величины строится по ряду распределения вероятностей.

Сравним функции и F. F - неизвестная и неслучайная функция, интересующая исследователя. Функция F содержит всю информацию о соответствующей величине X, ее можно назвать истинной или теоретической функцией и по ней можно найти, в частности, МХ и DХ и другие моменты распределения.

- функция, находимая по случайной выборке и потому случайная.

С ростом объема n выборки функция приближается к F и

при большом n - практически совпадает с F.

При большом числе наблюдений над непрерывной cл. величиной X прибегают к группировке данных: ось х разбивают на 10-15 интервалов , I₂, ..., I_К. Пусть - число наблюдений, попавших в интервал .

Длины интервалов не обязательно одинаковы.

По сгруппированным данным выборочное распределение выражают разными графиками, в первую очередь это:

1) кумулятивная кривая распределения (или график накопленной

частоты) - аппроксимация эмпирической функции распределения ;

2) гистограмма;

3) полигон частот.

Строятся они так.

Кумулятивная кривая. Взяв на оси ох точку - правый конец интервала = 1, 2,..., к - отложим в ней по оси ординат накопленную частоту .

Построенные точки плоскости соединим последовательно прямолинейными отрезками. В точках разбиения кумулятивная кривая совпадает с эмпирической функцией распределения , а между этими точками меняется линейно.

Гистограмма. На каждом интервале I_j оси абсцисс строим прямоугольник с высотой h_j = m_j/(nI_j), обеспечивающей площадь прямоугольника, равную частоте m_j/n (здесь l_j= - длина интервала I_j). Вся площадь под графиком гистограммы равна 1. Другой вариант гистограммы получим, если высоту h_j берем равной m_j, а все длины l_j одинаковы.

Полигон. В середине каждого интервала I_j разбиения строим ординату, равную m_j/n - частоте попадания наблюдений в этот интервал. Соединяем полученные точки прямолинейными отрезками.

Другой вариант полигона получим, соединяя отрезками середины верхних сторон прямоугольников, образующих гистограмму.

Гистограмма и полигон являются эмпирическими аналогами плотности вероятности. Если n увеличивать, а длины l_j интервалов уменьшать, то гистограмма и полигон неограниченно приближаются к кривой плотности вероятности cл. величины.

Пример 13. Построить три указанные кривые по сгруппированным данным, представленным в таблице 4 частот, n=200.

Таблица Сгруппированные данные

N интер-
вала
Гранииы ин-
тервала I_j
Число m_j
наблюдений

Частота m_j/n

0.035

0.055

0.075

0.120

0.245

0.205

0.130

0.085

0.035

0.015

На рисунках 5, 6 представлены три выборочные распределения. В

частности, на рис.5 в точке х=115 высота кумулятивной кривой W(х) равна 0.035+0.055+0.075=0.165, в точке х=140 W(х)=0.95, а W(150) = 1.

Высота гистограммы в точке х=117 (рис.6) равна m₄/nl = 0.120/5 = 0.024.

⇐ Предыдущая 123 4 5 6 7 Следующая ⇒