Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


III. Проверка распределения эмпирических данных на нормальный закон распределения.



Нормальное распределение случайной величины встречается в природе очень часто. В связи с этим при отсутствии оснований предполагать, что случайная величина распределена не нормально, в первую очередь необходимо проверить закон распределения на нормальность. Существуют различные способы проведения данной проверки.

 

1.Построение " Гистограммы".

Для выявления распределения вероятностей получаемых значений измеряемой величины, можно построить ступенчатую диаграмму, которая носит название " гистограмма". Она строится на непрерывных значениях независимой переменной, сгруппированных в классы равной ширины.

Совокупность всех значений случайной величины, полученных в результате эксперимента, называется простым статистическим рядом.

Так как простой статистический ряд оказывается большим, его преобразуют в статистический ряд. Для этого весь диапазон изменения случайной величины делят на несколько равных интервалов Dx:

Dx = (xmax - xmin)/k, где Dx -величина интервала, xmax-, xmin- максимальное, минимальное (соответственно) значение случайной величины, k - число классов, или количество интервалов, на которые следует разбить весь объём выборки.

Число классов (k) можно приблизительно наметить, пользуясь следующей таблицей:

по формуле Стерджеса:

k=1+3, 32lgn

При наличии в совокупности большого числа членов (n> 100) можно использовать формулу: k=5 lgn(К.Брукс, Н.Карузерс, 1963)

Разбивку значений по интервалам проводят по формулам (4):

 

x1, min=xmin, x2, min=x1, max=x1, min+Dx, ..., xn, min=xn-1, min+Dx

x1, max=x1, min+Dx, x2, max=x2, min+Dx, ..., xn, max=xn, min+Dx(4)

 

Для каждого интервала подсчитывают число mi значений случайной величины, попавших в соответствующий интервал:

xi, min< xi< xi, max.

Необходимо проверить, что ! (объём выборки),

где j-число интервалов.

После этого вычисляют частоту случайной величины P = mi/n для каждого интервала и среднее значение случайной величины в каждом интервале :

= ( xi, max + xi, min )/2 (5)

Необходимо проверить, что P = 1 (! )

По статистическому ряду строится " гистограмма", для этого по оси абсцисс откладывают интервалы (4), являющиеся основаниями прямоугольников, высота которых равна P /Dx - относительной частоте события (Рис.4). Частота появления результатов, соответствующих каждому интервалу, будет пропорциональна площади прямоугольника.

При большом числе измерений и увеличенном в 2 раза числе интервалов получится более сглаженная гистограмма (Рис.5).

Если количество измерений увеличивать, а величину интервала уменьшать, то гистограмма будет приближаться к плавной кривой, имеющей форму кривой Гаусса (Рис.5).

Интервалы не могут равняться нулю, но могут быть бесконечно малыми (dx) и приняты за точку. Эту кривую и следует рассматривать как предел, в который превращается гистограмма, когда интервал dx становится бесконечно малым и стягивается в точку.

Вероятность появления тех или иных значений случайной величины определяется элементарной площадкой ydx (P ), называемой элементом вероятности.

При нормальном распределении среднему арифметическому значению случайной величины должна соответствовать максимальная вероятность (Необходимо проверять! ).

Значение средней арифметической, в этом случае, следует находить по формуле:

- ( математическое ожидание) (6)

Совокупность всех этих площадок, расположенных под кривой Гаусса, является вероятностью того, что случайная величина принимает любые значения от до , т.е. это вероятность достоверного события, равная 1(формула 3).

В том случае, если случайная величина распределена по нормальному закону, т.е. гистограмма имеет вид как на Рис.5, для построения кривой распределения находят значения функции распределения вероятностей при x= по формуле:

f( ) = f(zi)/s (7)

где f( ) - плотность вероятности случайной величины;

-среднее интервальное значение случайной величины;

s-среднее квадратическое отклонение;

где zi = | - |/s

f(zi) =

Значения функции f (zi ) - протабулированы (см. Приложение).

 

2. Проверка закона распределения случайных величин на нормальность с помощью показателей асимметрии и эксцесса.

Показатель асимметрии характеризует симметричность распределения полученных эмпирических данных определенной выборки. Если распределение симметрично, то показатель асимметрииА=0 (нормальное распределение). Если склон кривой распределения расположен справа от оси симметрии, тоА> 0, если слева А < 0.

Показатель эксцесса характеризует вершину кривой распределения. Для нормального распределения показатель эксцессаЕ=0. Если полученная кривая распределения имеет более острую вершину, чем у нормального распределения, тоЕ> 0, если вершина более плоская, чем у нормального распределения, то Е < 0. Формулы для расчета А и Е приведены ниже:

А = (8)

E = (9)

где A - показатель асимметрии;

E - показатель эксцесса;

n - объём выборки;

x - отдельные показатели данной выборки;

- средняя арифметическая выборки.

Для приближенной проверки гипотезы о нормальном распределении необходимо рассчитать средние квадратические отклонения этих показателей (A, E) по формулам:

sА= (10)

и

sЕ= (11)

гдеsА, sЕ- средние квадратические отклонения показателей асимметрии и эксцесса (соответственно);

n - объём выборки.

Если показатели асимметрии и эксцесса в два и более раз превышает показатели их средних квадратических отклонений (т.е. А> sА и Е> sЕ), значит гипотезу о нормальности распределения данной выборки следует отвергнуть.

Анализ нормальности распределения по гистограмме (проведённый ранее) можно дополнить анализом перечисленных выше параметров (A, E, sА, sЕ), где за xi принимать i - среднее интервальное значение, - среднее арифметическое, n - объём выборки, вычисленные ранее.

3. Исследование степени соответствия эмпирических и теоретических данных на нормальный закон распределения (по критерию Колмогорова).

Для сравнения распределений можно пользоваться каким-либо критерием сравнения (расчет параметра l), который, с одной стороны, учитывал бы расхождения между ними (параметр G), а с другой - объём статистического материала (n). Эти критерии носят название критериев согласия.

Одним из наиболее употребляемых критериев является критерий Колмогорова. Используя критерий Колмогорова сравнение нужно проводить со стандартным нормальным распределением F(x, 0, 1):

 

F(x, μ, σ )=

где σ - среднеквадратическое отклонение;

μ - математическое ожидание случайной величины. Для стандартного нормального распределения σ =1, µ =0, т.е.:

F(x, 0, 1) = (12)

Вычисление следует проводить следующим образом. Сначала всепоказатели, т.е. значения случайной величины , полученных экспериментально, располагают в порядке возрастания, а под ними записывают частоту появления этих признаков m .

Для дальнейших расчетов необходимо вычислить среднюю арифметическую и сумму всех частот (n), равную объему выборки.

На основании полученных данных можно рассчитать теоретические значения случайных величин по формуле:

х’ = (13)

Кроме того, необходимо найти по теоретическим значениям х’ теоретические значения функции распределения, используя таблицу значений стандартной нормальной функции распределения (12), значения которой протабулированы.

Расчёт значений функции распределения эмпирических данных проводят по формуле:

F*(xi) = или F*(xi) = (14)

где -общее количество наблюдений, = n (объём выборки);

kj= -общее число наблюдений х ≤ хi;

j = 1, 2,..., n;

j = 1, 2,..., n.

Полученные данные удобно занести в таблицу. После составления таблицы находят необходимый показатель 1 по формуле:

1=G (15)

где G = мах |F*(х ) - F(х' )|;

n - объём выборки.

 

По показателю 1 находят значение вероятности Р(1) для оценки меры расхождения по критерию Колмогорова:

1) Если 1 > 0.5, различий по критерию Колмогорова нет.

2) Если 0.1 < l ≤ 0.5, то оценку расхождения нужно проверить ещё по какому-либо критерию.

Замечание: при одном и том же n, чем больше G (и, следовательно, чем больше l), тем меньше Р(l) того, что расхождение вызвано чисто случайными причинами. Иногда, для уменьшения l (увеличения Р(l) - соответственно) бывает достаточно просто увеличить n - объём выборки, и тогда оценка будет соответствовать 1 случаю.

3) Если l< 0.1, различия имеются, гипотезу о нормальном распределении эмпирических данных отвергаем.

Значения Р(l) приведены в таблице № 1.

Значение вероятности Р(1) для оценки меры расхождения по критерию Колмогорова.

Таблица № 1.

l Р(l) l Р(l) l P(l)
0.0 1.000 0.7 0.711 1.4 0.040
0.1 1.000 0.8 0.544 1.5 0.022
0.2 1.000 0.9 0.393 1.6 0.012
0.3 1.000 1.0 0.270 1.7 0.006
0.4 0.997 1.1 0.178 1.8 0.003
0.5 0.964 1.2 0.112 1.9 0.002
0.6 0.864 1.3 0.068 2.0 0.001

 

Контрольный пример:

1.3аписываем значения измеренной величины в порядке возрастания (первая строка в таблице № 2 контрольного примера), ниже (вторая строка) - число повторений данного значения.

2.Вычисляем значения х’ по формуле (13) (третья строка значений).

3.Вычисляем значения F*(х) по формуле (14) (четвертая строка значений).

4.Находим значения функции стандартного нормального распределения (см. соответствующую таблицу) по значению первого числа х'1 (из 3-й строки контрольной таблицы).

Он равен - 0.33. Без учета знака показатель будет 0.629. Учитывая, что это число отрицательное, отнимем его от 1 и получим 0.371, это значение и заносим в таблицу в пятую строку. Аналогичным образом поступаем и с другими числами. Показатели положительных чисел, определенные по таблице, сразу заносим в контрольную таблицу. После составления таблицы находим необходимый показатель 1 по формуле (15) и соответствующее ему значение Р(l) по таблице 1 и делаем вывод по критерию Колмогорова. Критерий Колмогорова.

Таблица № 2.

хi 6 7 11 12 =9
k 3 4 6 3 ∑ k= 16=n i= 1
x’ -0.33 -0.22 0.22 0.33  
F(х' ) 0.371 0.413 0.587 0.629    
F*( х ) 0.187 0.437 0.812 1    

- Вычисляем G = 0.629 - 1 = 0.371, 1 = 0.371 / 4 = 0.06.

- Соответствующую l вероятность Р(0.06) = 1 находим по Табл.№1.

- По критерию Колмогорова (пункт 1) можно сделать вывод, о том, что различий полученных эмпирических данных от нормального закона распределения нет.

 


Поделиться:



Последнее изменение этой страницы: 2017-03-14; Просмотров: 811; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.04 с.)
Главная | Случайная страница | Обратная связь