Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Применение критерия Пирсона к проверке гипотезы о нормальном распределении генеральной совокупности
Пусть имеется наблюдений над случайной величиной . Пусть далее значения случайной величины распределены в интервалах с частотами и среднеинтервальными значениями . Тогда можно записать эмпирическое распределение случайной величины Х в следующем виде: (4.1) где (4.2) Допустим, что анализ опытных данных привел к выбору некоторого теоретического распределения в качестве предполагаемого для данной случайной величины . Оценки параметров этого закона определим по выборке. С помощью указанного закона вычислим теоретические частоты для которых также (4.3) В качестве меры расхождения теоретического и эмпирического рядов частот можно взять величину (4.4) Сумма (4.4) распределена приближенно, как - распределение (читается: «хи квадрат распределение») с плотностью распределения вероятностей . (4.5) и с числом степеней свободы где – число тех связей, которые были наложены на экспериментальный материал при оценке параметров распределения, необходимых для вычисления теоретических частот, а - число интервалов. Применять - критерий нужно с известной осторожностью, так как он основан не на строгом законе, а на приближении, которым можно пользоваться, если условиться объединять крайние частоты ряда распределения так, чтобы частота объединенного разряда была не меньше 5. При проверке гипотезы нормальности желательно, чтобы число наблюдений было не менее 50. Схему применения критерия согласия рассмотрим на конкретном примере. 1.На основе опытных данных (см. столбцы 2 и 3 следующей ниже таблицы 4.1) предполагаем, что закон распределения случайной величины является нормальным и по известным формулам определяем выборочные оценки параметров его распределения: выборочную среднюю и выборочное среднее квадратическое отклонение . Отметим, что поскольку групповая частота (см. табл. 4.1) в последней группе мала (меньше пяти) ее следует объединить с частотой предыдущей группы. В результате этого количество групп уменьшится с 10 до 9. 2.Введем в рассмотрение нормированную случайную величину (4.6) и вычислим теоретические частоты (4.7) где - объем выборки; - длина интервала; - нормированная функция плотности нормального распределения. 3. По формуле (4.4) вычисляем наблюдаемое значение критерия . 4.Определяем число степеней свободы . 5.По таблице распределения находим критическое значение при уровне значимости =0, 05 и степенях свободы. Значение . 6.Делаем вывод: поскольку меньше критического , то гипотеза о нормальном распределении частот верна. 7. Строим полигон частот и кривую распределения вероятностей (рис. 4.1).
Рис. 4.1. Полигон частот и кривая распределения вероятностей продолжительности периода полировки
Таблица 4.1. Распределение данных о продолжительности периода полировки ( )
Таблица 4.2. Значения в зависимости от вероятности и числа степеней свободы - распределения.
Применение критерия Колмогорова к проверке гипотезы о нормальном распределении генеральной совокупности Крупнейший советский математик А.Н. Колмогоров в 1933 году для оценки близости между эмпирическим и теоретическим распределениями предложил другой критерий, который основан на соотношении накопленных частот ( ) теоретического и эмпирического рядов распределений. Он ввел в рассмотрение случайную величину (4.8) и нашел функцию распределения этой величины , (4.9) которую назвали функцией Колмогорова. Видный советский математик Н.В. Смирнов составил таблицы распределения случайной величины . Таблица 4.3.
Если найденному значению соответствует очень малая вероятность , то расхождение между эмпирическим и теоретическим распределениями нельзя считать случайным. Если же величина значительна, то расхождение между частотами случайно, и эмпирическое распределение хорошо согласуется с теоретическим. По данным таблицы 4.1 (см. столбцы 8, 9 и 10) имеем (4.10) По таблице вероятностей находим , следовательно, распределение данных о продолжительности периода полировки весьма близко к нормальному распределению. Критерий В.И. Романовского Видный советский математик В.И. Романовский предложил более удобную форму использования критерия , введя в рассмотрение величину где - число степеней свободы. Он доказал, что там, где эта величина меньше 3, расхождение между эмпирическим и теоретическим распределениями несущественно. Если же отношение Романовского больше 3, то расхождение между эмпирическим и теоретическим распределениями является неслучайным и теоретическое распределение не может служить моделью взятых эмпирических данных. По найденным значениям и определим величину (4.11) Так как , то расхождение между эмпирическим и теоретическим распределениями данных о продолжительности периода полировки является несущественным.
4.4. Критерий Б.С. Ястремского Критерий крупнейшего советского статистика Б.С. Ястремского выражается отношением (4.12) где - число групп, - параметр, зависящий от числа групп. При величина =0, 6 и поэтому в этом случае отношение Ястремского имеет вид: (4.13) Критерий Ястремского имеет тот же смысл, что и критерий Романовского. По данному определим значение отношения (4.12): (4.14 ) Так как , то гипотеза о нормальном распределении данных о продолжительности периода полировке противоречит результатам наблюдения. Регрессионный анализ Линейная корреляция Если обе линии регрессии на и на - прямые, то корреляцию называют линейной. Выборочное уравнение прямой линии регрессии на Х имеет вид (5.1) где - условная средняя; - выборочные средние признаков и ; - выборочные средние квадратические отклонения; - выборочный коэффициент корреляции, причем Выборочное уравнение прямой регрессии Х на Y имеет вид (5.2) Если данные наблюдений над признаками и заданы в виде корреляционной таблицы с равноотстоящими вариантами, то целесообразно перейти к условным вариантам. где - «ложный ноль» варианты (новое начало отсчета); в качестве ложного нуля выгодно принять варианту, которая расположена примерно в середине вариационного ряда (условимся принимать в качестве ложного ноля варианту, имеющую наибольшую частоту); - шаг, т.е. разность между двумя соседними вариантами ; - ложный нуль варианты Y; - шаг варианты . В этом случае выборочный коэффициент корреляции прилагаем слагаемое удобно вычислять, используя расчетную таблицу 5.3. Величины могут быть найдены либо методом произведений (при большом числе данных), либо непосредственно по формулам Зная эти величины, можно определить входящие в уравнения регрессии (5.1) и (5.2) величины по формулам: Для оценки линейной корреляционной связи служит выборочный коэффициент корреляции ; чем ближе к единице, тем связь сильнее; чем ближе к нулю, тем связь слабее. Пример 5.1. Найти выборочное уравнение прямой линии регрессии на по данным, приведенным в корреляционной таблице 5.1. Таблица 5.1
Решение. Составим корреляционную таблицу 5.2 в условных вариантах, выбрав в качестве ложных нулей (каждая из этих вариант расположена в середине соответствующего вариационного ряда). Найдем и : Найдем вспомогательные величины : Найдем Таблица 5.2
Найдем , для чего составим расчетную таблицу 5.3. Суммируя числа последнего столбца таблицы 5.3, находим Для контроля вычислений находим сумму чисел последней строки: Таблица 5.3
Совпадение сумм свидетельствует о правильности вычислений. Популярное:
|
Последнее изменение этой страницы: 2016-06-04; Просмотров: 844; Нарушение авторского права страницы