МЕРЫ ИЗМЕНЧИВОСТИ. (размах, асимметрия ,эксцесс).

⇐ ПредыдущаяСтр 3 из 3

Меры центральной тенденции позволяют нам судить о концентрации наших исходных данных на числовой оси. Каждая такая мера дает значение, которое представляет в каком-то смысле все элементы выборки. В этой ситуации фактически пренебрегают различиями, существующими между отдельными элементами выборки. Поэтому для учета таких различий будем использовать некоторые другие описательные статистики, которые называются мерами изменчивости (рассеяния, разброса). Самой простой мерой изменчивости является размах выборки, для вычисления которого необходимо из максимального элемента выборки вычесть минимальный. R=xmax-xmin

Т.к. размах определяется только двумя элементами выборки, то он не учитывает распределения остальных элементов выборки. Пример: пусть первая выборка содержит значения, равномерно распределенные от 1 до 10. И всего таких значений 100. Вторая выборка содержит также 100 значений, но одно из них равно единице, еще одно равно 10, а остальные 98 значений равны 5.

1) 1….1 2….2 … 10….10

10 10 10

2) 55….55 10

R1выб.=10-1=9 R2выб.=10-1=9

Иногда в качестве меры изменчивости используют интерквартильный размах (между квартилями).

Q=Q3-Q1

¼ =25% ¾ =75%

Q1 Q3

50% Q

1 выборка: Q1=3 Q3=8 (75%) Q=8-3=5

2 выборка: Q1=5 Q3=5 Q=0

Интерквартильный размах используется достаточно редко. Наиболее популярной мерой изменчивости является дисперсия.

х1, х2, …, хn

(xi-x)=0

i=1

Меры изменчивости (дисперсия).

Дисперсия.

Для учета различий между отдельными элементами выборки в качестве меры изменчивости можно было бы взять сумму отклонений каждого элемента выборки от среднего значения выборки. Однако вследствие того, что эти отклонения могут быть как положительными, так и отрицательными, то их сумма для любой выборки всегда равна 0.

Поэтому вместо суммы отклонений можно рассмотреть сумму квадратов отклонений. Однако и в этом случае имеется недостаток: такая сумма сохраняет зависимость от количества элементов в выборке. Для устранения этого недостатка мы должны были бы разделить сумму квадратов отклонений на количество элементов выборки, т.е. n, но в статистике эту сумму делят не на n, a нa n-1.

Для получения более точной меры изменчивости, которая

называется дисперсией Sx и вычисляется по формуле:

2 n 2

Sx=( (xi-x)): (n-1)

i=1

n 2 2 2 2

(xi-x) = (x1-x) + (x2-x) +...+ (xn-x) (сумма квадратов отклонений)

i=1

Чем больше дисперсия выборки, тем больше разбросаны наши исходные значения по числовой оси относительно среднегозначения выборки.

На практике даже для выборки, которая состоит из целых чисел, может оказаться, что среднее значение является не целым числом. В результате этого отклонения тоже будут являться дробными числами, которые нам нужно возводить в квадрат. Поэтому для упрощения вычислений на практике используют следующую формулу:

2 n 2 n 2

Sx= (n xi – ( xi) ): n (n-1)

i=1 i=1

Лучше всего вычислять дисперсию с помощью компьютера, используя встроенную функцию Excel (мастер функций), которая называется Дисп (исходный диапазон).

Свойства дисперсии.

1.Если выборка состоит из одного и того же значения, то дисперсия 2

этой выборки будет равна 0. 12, 12, 12, 12, 12. Sx=0. Дисперсия такой выборки равна 0. Дисперсия является неотрицательной величиной, поэтому

Sx= -2, 12 – не бывает.

2. Если каждый элемент выборки умножить на одну и ту же

величину с, то дисперсия выборки изменится в с раз.

2 2

3. Sнов.= с Sстар. хнов.= с хстар.

Меры изменчивости (стандартное отклонение).

Меры изменчивости тесно связаны с дисперсией – является стандартное отклонение, которое обычно обозначается Sx (сигма). Оно определяется как положительное значение квадратного корня из дисперсии.

Sx = Sx

Стандартное отклонение часто используется для оценки диапазона изменения наших исходных данных. Для этого применяется правило «трех стандартных отклонений»: 99, 5% исходных данных находится в интервале от х – 3 Sx до х + 3 Sx.

х1, х2, …, хn Стандартное отклонение может быть использовано также в процедуре преобразования исходных данных, которая получила название стандартизации. Чаще всего она применяется для «сырых» баллов.

Пусть в ходе эксперимента получили выборку х1, х2, …, хn, где значения представляют собой сырые баллы. Для другого теста можно получить аналогичные данные, однако часто бывает, что шкала тестов различается по диапазону. Для того, чтобы можно было сравнить полученные данные по различным шкалам и применяют процедуру стандартизации. В результате ее получается новая выборка: z1, z2, …, zn.

zi= (xi-x): Sx, где xi, где xi - среднее значение первоначальной выборки; Sx – стандартное отклонение этой выборки (использование компьютера – мастер функций).

В результате новые стандартизованные данные будут иметь среднее значение, равное 0, а стандартное отклонение – 1, независимо от исходных данных, (т.е.шкалы): z=0; Sz=1.

Нормальное распределение.

Значения показателей (признаков) невозможно предугадать даже при полностью известных условиях эксперимента, в которых они измеряются.

Мы можем лишь указать вероятность того, что признак принимает то или иное значение.

Знание частоты встречаемости этих значений позволяет нам судить о распределении частот. Знание этого распределения исследуемого признака позволяет делать выводы о событиях, в которых участвует этот признак. Однако эти выводы тоже носят вероятностный или столастический характер.

Среди распределений есть такие распределения, которые встречаются на практике особенно часто. Эти распределения детально изучены и свойства их хорошо известны.

Наиболее распространенным распределением является нормальное распределение. Оно часто используется для приближенного описания многих случайных явлений, в которых на интересующий нас признак оказывает воздействие большое количество независимых случайных факторов, среди которых нет резко выделяющихся.

Нормальное распределение однозначно распределяется, если мы указываем значения двух его параметров: 1) среднее значение а; 2) дисперсии

( сигма). График нормального распределения называется кривой Гаусса и является симметричным относительно среднего значения а.

Параметр а характеризует положение графика на плоскости и

называется поэтому параметром положения. Параметр характеризует степень сжатия или растяжения, поэтому он называется параметром

масштаба. Если среднее значение а=0, а дисперсия =1, то такое нормальное распределение называется стандартным. Рассмотренная в предыдущем параграфе процедура стандартизации исходных данных как раз и приводит к тому, что преобразованные данные z1, z2, …, zn имеют стандартное нормальное распределение.

График стандартного нормального распределения является симметричным относительно вертикальной координатной оси.

При обработке исходных данных иногда осуществляются преобразования с помощью арифметических операций. В результате этого возникает несколько новых видов распределения, связанных с нормальным.

Наиболее часто из таких распределений в статистике

рассматриваются следующие: 1) Х - распределение (хи-квадрат); 2) t – распределение Стьюдента; 3) F – распределение Фишера.

Х - распределение.

Оно определяется как сумма квадратов случайных величин, имеющих стандартное нормальное распределение.

2 2 2 2

Хn = Z1 + Z2 +... +Zn

Х - распределение зависит от одного параметра, который называется числом степени свободы и обычно обозначается (ню). Этот параметр равен количеству суммируемых случайных величин.

График Х распределения не является симметричным и расположен в положительной полуплоскости. Среднее значение Х -распределения равно числу степен свободы (ню), а дисперсия равна 2.

t – распределение Стьюдента.

Оно получается в результате деления частной величины, имеющей стандартное нормальное распределение на квадратный корень из случайной

величины, имеющей Х – распределение.

t = Z0: X:

t – распределение Стьюдента зависит от одного параметра – числа степеней свободы.

График этого распределения является симметричным относительно координатной вертикальной оси.

Если > 30, то распределение Стьюдента практически не отличается от стандартного нормального распределения.

F – распределение Фишера. 2

Оно получается путем деления случайной величины, имеющей Х – распределение с числом степеней свободы 1 на случайную величину,

имеющую Х – распределение с числом степеней свободы 2.

2 2 2 2

F 1, 2 = (X 1: 1): (X 2: 2) = ( 2 X 1): ( 1 X 2)

F – распределение Фишера зависит от двух параметров: 1, 2.

Рассмотренные выше четыре распределения протабулированы, т.е. для них имеются соответствующие статистические таблицы.

⇐ Предыдущая 1 23