Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


ВАЖНЕЙШИЕ ХАРАКТЕРИСТИКИ ВЫБОРКИ



Пусть мы имеем выборку (х1; x2,...,хn ) объема n. Для инженера это значит, что мы сделали случайный отбор n элементов из генеральной совокупности, математик же предпочитает говорить, что мы провели n независимых наблюдений над случайной величиной X, подчиненной некоторому (известному, а чаще нет) закону. Точки х1; x2,...,хn - реализации cл. величины Х - записаны в порядке их получения (в хронологической порядке).

Если эти числа записать иначе, в порядке возрастания х1 < х2 <. . .xn, то получим упорядоченную выборку, называемую еще вариационным рядом.

Расстояние хn – х1 между крайними членами этого ряда называется размахом вариационного ряда. эта характеристика рассеяния, разброса случайной величины.

Пример 1. Имеем выборку из нормального стандартного закона:

{0.414; -0.011; 0.666; -1.132; -0.410; -1.077; 0.734;}

число точек (объем выборки) n=7. Переставляя числа по воз­растанию, получим упорядоченную выборку:

{-1.132; -1.077; -0.410; -0.011;0.414; 0.666; 0.743}.

Размах равен 0.734-(-1.132)=2.866.

x1 =0.414 - первый элемент выборки, х(1)=-1.132 - первый эле­мент вариационного ряда, аналогично x2 =-0.011, х(2)'=-1.077.

В большинстве задач выборка и вариационный ряд несут одина­ковую информацию, но с вариационным рядом легче работать в силу его упорядоченности. Все же некоторая потеря информации при упо­рядочивании происходит: по вариационному ряду нельзя судить о не­зависимости наблюдений, т.е. о случайности выборки.

Рассмотрим какой-либо вариационный ряд.

 

---- * ----*---- * ------ * -----* ----* -----* ---- * ----- * -------------------------

x(1) x(3) d=x(5) x(9) x

Рис.1

Найдем такую точку х на оси абсцисс, что справа и слева от нее будет одинаковое число точек выборки. Если число n точек вы­борки нечетно , то х совпадет с точкой x(n+1)/2 ва­риационного ряда. Обозначим эту точку d и назовем медианой выбор­ки. Когда же n четно, то указанных точек х, делящих выборку попо­лам, много, а из них нам в качестве медианы нужна одна. Чтобы ее найти, возьмем по одной ближайшей слева и справа к точке х точке ряда и за медиану примем среднее значение между ними.

Если для характеристики выборки как целого нам нужно выбрать несколько чисел, которые легко найти, то ими окажутся:

а) крайние точки - наибольшее и наименьшее х(n) и х(1)

б) срединное значение - медиана d.

Если мы хотим добавить еще два числа, образовав 5-числовую сводку, то естественно поступить так; мысленно отбросим точки вы­борки справа от медианы d и найдем медиану для оставшихся точек, назвав ее нижней квартилью выборки. Аналогично, верхняя квартиль находится как медиана для части выборки, остающейся при удалении точек слева от d. (Кварта - от латинск. quarta - четверть).

 

Пример 2. Дать 5-числовую сводку по выборке с n=13; -1.7;

{-0.4; 1.5; -3.2; 1.2; 0.3; 1.8; 3.0; 2.4; 4.3; 9.8, 6.4; 0.1.}

Вариационный ряд {-3.2; -1.7; -0.4; 0.1; 0.3; 1.2; 1.5; 1.8;

2.4; 3.0; 4.3. 6.4. 9.8.}

Медиана d=x(7)=1.5, а квартили - четвертое число от каждого конца, т.е. 0.1 и 3.0. 5-числовая сводка: -3.2; 0.1; 1.5; 3.0;

9.8.

Известный американский статистик Дж.Тыоки рекомендует такой ряд изображать в виде;

-3.2 1.5 9.8

-1.7 1.2 1.8 6.4

-0.4 0.3 2.4 4.3

0.1 3.0

а 5-числовую сводку ряда в виде схемы:

 

Пример 7. О чем нам говорит 5-числовая сводка:

Решение. Все 1000 наблюдений лежат на числовой оси между 10 и 500, причем неравномерно, половина слева от медианы d=70, поло­вина справа.

Левее нижней квартили х=30 и правее верхней х=150 лежит по четвертой части всех наблюдений, а между ними половина, т.е. в каждом промежутке [10,30], [30,70], [70,150] и [150,500] лежит по 250 наблюдений.

Следует помнить, что теоретическая или истинная медиана d (медиана генеральной совокупности) является неслучайным числом, определяемым по закону распределения условием:

P(x>d)=P(x<d). Выборочная же медиана d является случайной величиной; для разных выборок из одной генеральной совокупности она примет хотя и близкие, но разные значения.

Статистическое распределение выборки - это таблица из двух строк. В верхней указаны в порядке возрастания наблюдаемые значе­нияx1 (их называют вариантами), а под ними указаны соответствую­щие им частоты (называемые также относительными частотами, т.е. числа наблюдений, деленные на n - объем выборки).

Пример 3. Имея конкретную выборку: {2, 6, 12, 6, 6, 2,6, 12, 12, 6, 6, 6, 12, 12, 6, 12, 2, 6, 12, 6 }(n=20) - записать вариа­ционный ряд и статистическое распределение выборки.

Ваоиационный ряд: {2, 2, 2, 6, 6, б, 6, б, б, 6, 6, 6, 6, 12,

12, 12, 12, 12, 12, 12}.

Статистическое распределение выборки объема n=20.

Контроль: 0.15+0.5+0.35=1.

варианты x'1        
частоты Р1   0.15   0.5   0.35  

 

Заметим что в выборке могут быть совпадающие числа, тогда как варианты- несовпадающие числа, число их обычно меньше n.

Статистические моменты. При проведении статистического ис­следования истинными (или теоретическими) являются характеристики генеральной совокупности. Именно их хотел бы знать исследователь. тогда как на деле по выборке он вычисляет эмпирические характе­ристики - характеристики выборки.

Если формуму

применяемую для вычисления началь­ного момента К-го порядка дискретной cл.величины, применить к ста­тистическому распределению (заменив вероятности p1 на частоты 1, то получим x’

 

-статистический (или эмпирический) начальный момент К-го порядка; m - число вариант x'1 .

В частности,

- выборочное среднее, его обозна­чают .

Наряду с начальными моментами употребляют и центральные:

статистический центральный момент к-го порядка. Особенно важен второй:

- выборочная дисперсия. Ее обозначают S2 .

 

Пример 9. По упорядоченной выборке:{ 4,6,7,7,10,15,18 }(m=7) найти первый и второй начальные статистические моменты и второй центральный.

= a = (4+б+7+7+10+15+18)/7 = 9.57.

a2 = (42+62+72+72+102+15Z+182)/7 = (16 +36 + 49 *49 + 100+ 225 + 324)/7 = 799/7 = 114,14.

S2 = m2 = (1/7)(4-9.57)2 + (6-9.57)2 + (7-9.57)2 + (7-9.57)2 + (10-9.57)2 + (15-9.57)2 + (18-9.57)2 = (1/7)[31.02 * 12.74 + 6.60 + 6.60 + 0.18 + 29.48 + 71.06] = 157.68/7 = 22.52.

Полезной как для вычислений, так и для контроля служит фор­мула для S2, эквивалентная предыдущей и имеющая вид:

(3)

В нашем примере S2 = 114.14 - 9.572 = 114.14 - 91.58 = 22.56. С ошибкой в последнем знаке выборочные дисперсии, найденные по двум формулам, совпадают. Заметим, что из-за ошибки округления вторая формула для S2 требует для получения той же точности де­лать вычисления с большим (на 1 или 2) числом знаков.

УПРАЖНЕНИЯ.

Доказать тождество

2. Доказать, что:

а) при увеличении каждого элемента Xi выборки на 10 выбороч­ное среднее х увеличится на 10, a S2 не изменится.

б) при увеличении каждого элемента х1 выборки в 10 раз х среднее также возрастет в 10 раз, а дисперсия S2 в 100 раз.

В теории вероятностей употребляются характеристикизаконараспределения:

 

Деление на среднеквадратическое в соответствующей степени делает эти характеристики безразмерными. Асимметрия равна нулю для сим­метричных распределений, она больше нуля, если "хвост" распреде­ления тянется вправо.

У нормального распределения асимметрия и эксцесс нулевые. Если эксцесс больше нуля, это, как правило, означает, что график плотности в окрестности моды имеет более острую и более высокую вершину, чем нормальная кривая. Для более плосковершинных, чем нормальное, распределений эксцесс отрицателен.

По выборке мы находим приближенные значения асимметрии и эксцесса, строим оценки:

асимметрия выборки = m3/ S3 (4)

эксцесс выборки = m4/ s4 - 3 (5)

Когда наблюдения проводятся над системой (Х,У) двух случай­ных величин, то выборка состоит уже из пар чисел - значений Хи У: ( x1.,yi), (х2 , y2 ),.... (хn , yn ). Поxiмы можем построить расс­мотренные статистические моменты для X, по уi - для У. Связь меж­ду X и У, точнее, меру близости этой связи к линейной, выражает коэффициент корреляции:

Заменой средних μx μy на выборочные средние и дисперсий

на выборочные дисперсии получим оценку дляρxy-выборочный коэффициент корреляции rxy:

(6)

Эту формулу легко преобразовать к виду:

Как иρxy, выборочный коэффициент корреляции rxy заключен между -1 и +1. Если rxy =±1, то точки (х11 ) лежат строго на пря­мой, т.е. имеет место строгая линейная зависимость.

Пример 10. Испытана рессорная сталь на прочность прикруче­нии и изгибе. Х - прочность при кручении, У - прочность приизги­бе; (x1, y1 ) - прочность при кручении и изгибе i-ro образца стали.

Вычислить выборочный коэффициент корреляции rxy по выборке объема n=12, заданной в двух столбцах таблицы 3.

Таблица 3

Вычисление гxy

N   X1   У1   ∆X   ∆y   (∆X)2 (∆Y)2 (∆X) ∆Y  
исп.                              
      -37   -21        
      -21   -16        
      -4   -3        
      -7   -2        
               
               
      -17   -3        
        Q        
               
        -1       -3  
               
        -2       -2  
∑       -1          

 

∆x обозначает разность , а ∆у обозначает .

Сумма чисел в столбцах ∆x и ∆y теоретически должна всегда равняться нулю. В столбце ∆x сумма оказалась равной -1 (ане 0), потому что вместо точного значения х=87.9 было использовано ок­ругленное значение 88.

Выборочные дисперсии:

Выборочный коэффициенткорреляции:

Как видим, в среднем прочность на кручение почти вдвое боль­ше, чем при изгибе.

Близость коэффициента корреляции к 1 говорит о практически линейной связи между Х и У.

Статистические моменты вычисляются по случайной выборке и потому являются сл. величинами. Поэтому следует различать две ве­щи:

1) статистический момент как cл. величину и 2) конкретное значение этого момента, наблюденное по конкретной выборке. Для определенности рассмотрим выборочное среднее. Его следовало бы обозначить среднее X, когда выборочное среднее есть cл. величина, и обоз­начить среднее х, когда мы говорим о реализации х, т.е. о среднем арифме­тическом значении элементов конкретной выборки.

Точно так же и выборку, строго говоря, следует понимать в двух смыслах: 1) как систему (Х1 ,X2 , ...,Хn) n независимых одина­ково распределенных cл. величин, у каждой из которых закон расп­ределения тот же, что у cл. величины X, над которой проводятся наблюдения, и 2) как конкретную выборку x1 , x2,... xn, где x1 реализация cл. величины Х1 , ....xn -реализация величины Хn.

Выясним, какому закону подчиняется выборочное среднее Х=Хn, если наблюдения проводятся над нормальной cл. величиной

Как сумма нормальных величин X12+...+Хn,

 

числитель величины подчиняется нормальному закону. Найдем математическое ожидание и дисперсию величины «среднее X»

 

Таким образом (8)

Интуитивно ясно, что если взять ряд выборок (из n элементов каждая), то средние этих выборок должны вести себя куда более стабильно, чем исходная сл. величина X: меньше отклоняться μ и меньше "прыгать" от одной выборки к другой. Формула (8) это подтверждает: у величины среднее X тот же центр μ распределения, но дисперсия в n раз меньше: б2x- = б2/n.

Пример. Каким следует взять объем выборки п, чтобы выбо­рочное среднее подчинялось закону N(μ,0.1), если Х ~ N(μ,5)?

0.1 = DX = б2x-= 5/n, n=5/0.1=50.

По поводу формулы (8) надо добавить следующее. Соотношения MX = MX и DX = DX/n выведены без учета требования нормальности.

Если число наблюдений n велико, то каким бы ни было распределение у X, в силу центральной предельной теоремы выборочное среднее Хn подчиняется закону, близкому к нормальному; тем более близкому, чем больше n и чем ближе к нормальному закон распределения величины X. Так что формула (8) приближенно верна всегда.

С ростом объема n выборки плотность вероятности для среднее Хn концентрируется около центра μ и имеет нормальный вид, высота графика плотности пропорциональна n1/2

ВЫБОРОЧНЫЕ РАСПРЕДЕЛЕНИЯ

Эмпирическая функция распределения. По вариационному ряду или выборке легко построить эмпирическую функцию распределения F*(x) - оценку истинной функции распределения F(x) = P(X<x).

 
 


= число точек выборки, лежащих левее т х на оси ох, или

доля точек выборки слева от т. х. Так, = 0.4 означает, что в выборке 40% чисел имеют значение меньшее трех.

График строим так. Двигаясь слева направо вдоль оси ох, на каждой точке х1 ряда рисуем скачок функции, равный 1/n; меж­ду любыми соседними точками х1 и х1+1 функция постоянна, т.е. график - кусочно постоянная функция, имеющая ступенчатый вид.

Слева от точки х.( 1) равна О, справа от точки х.(n) - равна 1.

Теорема Гливенко

Советским математиком Гливенко была доказана теорема: При числе испытаний, стремящихся к бесконечности эмпирическая функция распределения равномерно сходится к теоретической функции распределения.

Пример 12. Построить график для выборки:

{0.17, 1.53, 0.99, 2.04, 0.56, 1.73, 0.95, 1.25, 0.75, 1.82}, n=10.

Упорядочим выборку: {0.17, 0.56, 0.75, 0.95, 0.99, 1.25, 1.53, 1.73, 1.82, 2.04}, и нанесем точки х( 1)(2) , ... , х(10) на ось х. Высота каждой ступеньки графика равна 1/n = 0.1 и число x n=10 .

Эмпирическая функция по статистическому распределению строится точно так же, как функция распределения дискретной cл. величины строится по ряду распределения вероятностей.

Сравним функции и F. F - неизвестная и неслучайная функ­ция, интересующая исследователя. Функция F содержит всю информа­цию о соответствующей величине X, ее можно назвать истинной или теоретической функцией и по ней можно найти, в частности, МХ и DХ и другие моменты распределения.

- функция, находимая по случайной выборке и потому слу­чайная.

С ростом объема n выборки функция приближается к F и

при большом n - практически совпадает с F.

При большом числе наблюдений над непрерывной cл. величиной X прибегают к группировке данных: ось х разбивают на 10-15 интерва­лов , I2 , . . . ,IК . Пусть - число наблюдений, попавших в интервал .

Длины интервалов не обязательно одинаковы.

По сгруппированным данным выборочное распределение выражают разными графиками, в первую очередь это:

1) кумулятивная кривая распределения (или график накопленной

частоты) - аппроксимация эмпирической функции распределения ;

2) гистограмма;

3) полигон частот.

Строятся они так.

Кумулятивная кривая. Взяв на оси ох точку - правый конец интервала = 1,2,...,к - отложим в ней по оси ординат накопленную частоту .

Построенные точки плоскости соединим последовательно прямоли­нейными отрезками. В точках разбиения кумулятивная кривая сов­падает с эмпирической функцией распределения , а между этими точками меняется линейно.

Гистограмма. На каждом интервале Ij оси абсцисс строим пря­моугольник с высотой hj = mj/(nIj), обеспечивающей площадь прямо­угольника, равную частоте mj/n (здесь lj= - длина интерва­ла Ij). Вся площадь под графиком гистограммы равна 1. Другой ва­риант гистограммы получим, если высоту hj берем равной mj , а все длины lj одинаковы.

Полигон. В середине каждого интервала Ij разбиения строим ординату, равную mj/n - частоте попадания наблюдений в этот ин­тервал. Соединяем полученные точки прямолинейными отрезками.

Другой вариант полигона получим, соединяя отрезками середины верхних сторон прямоугольников, образующих гистограмму.

Гистограмма и полигон являются эмпирическими аналогами плот­ности вероятности. Если n увеличивать, а длины lj интервалов уменьшать, то гистограмма и полигон неограниченно приближаются к кривой плотности вероятности cл. величины.

Пример 13. Построить три указанные кривые по сгруппированным данным, представленным в таблице 4 частот, n=200.

Таблица Сгруппированные данные

N интер-                          
вала                                            
Гранииы ин-                          
тервала Ij                          
Число mj                        
наблюдений                                              
Частота mj/n   0.035   0.055   0.075   0.120   0.245   0.205   0.130   0.085   0.035   0.015    

На рисунках 5,6 представлены три выборочные распределения. В

частности, на рис.5 в точке х=115 высота кумулятивной кривой W(х) равна 0.035+0.055+0.075=0.165, в точке х=140 W(х)=0.95, а W(150) = 1 .

 
 

Высота гистограммы в точке х=117 (рис.6) равна m4/nl = 0.120/5 = 0.024.






Читайте также:

Последнее изменение этой страницы: 2016-03-17; Просмотров: 46; Нарушение авторского права страницы


lektsia.com 2007 - 2017 год. Все права принадлежат их авторам! (0.115 с.) Главная | Обратная связь