Чаще всего проверка нормальности распределения производится с применением критерия согласия Пирсона хи-квадрат

ИТАК

Имеем выборку из данных объёма n , полученных в результате фиксации наших остатков после моделировании по МНК.

Как вы помните критерием согласия называют критерий по которому проверяют соответствие (согласие) тестируемого распределения (нашей выборки остатков) гипотезе. В нашем случае гипотеза – нормальное распределение.

Функция распределения

Для того что-бы определить какому именно Нормальному Распределению необходимо проверить соответствие, ----- то в предположении, что наше распределение нормально – вычисляют выборочные его параметры

–оценку МО – среднее и оценку дисперсии :

Имеется несколько критериев согласия. Наиболее часто используют критерий согласия К.Пирсона («хи-квадрат») .

Как это делаем

По выборке остатков

рассчитывают эмпирическое

распределение: это эмпирические

частоты. в интервалах

с серединами в точках

Рассчитывают выборочные и :

В предположении нормального

распределения генеральной совокупности

Определяют теоретические частоты

и т.о. имеется теор распр-е

Необходимо при уровне значимости

проверить нулевую гипотезу:

генеральная совокупность из которой

взята выборка распределена нормально.

То есть отличия этих двух кривых

несущественны на уровне значимости

Для критерия Пирсона формируют

статистику (А)

для которой доказано что

она распределена по закону СВ .

Естественно, что чем меньше различаются эмпирические и теоретические частоты, тем меньше величина критерия (А), и, следовательно, он характеризует близость эмпирического и теоретического распределений.

Важно!

Заметим, что до сих пор нигде ( в формуле) не фигурировал размер выборки n. Это значит что по умолчанию для корректности выводов о проверяемой гимотезе n должно быть соизмеримо с генеральной совокупностью (помним это, когда проверяем какие-то гипотезы на 20-ти или 30-ти пациентах – выводы, как правило, некорректны!!!! ).

Действительно, доказано, что при n→ ∞ закон распределения случайной величины (А) стремится к закону распределения с k степенями свободы независимо от того, какому закону распределения подчинена сама генеральная совокупность х. Поэтому сам критерий называют критерием согласия . А n для корректности надо → ∞

Число степеней свободы определяется из равенства v=k-1-m

, где k – число групп (частичных интервалов) выборки,
m – число параметров предполагаемого распределения.

В частности, если предполагаемое распределение – нормальное, то оценивают два параметра (матожидание исреднее квадратическое отклонение ), поэтому число степеней свободы. v=k-3

Мы помним, что чем меньше расчетная величина критерия (А), тем ближе эмпирическое и теоретические распределения.

Зададимся некоторой доверительной вероятностью p=1-α (вероятностью отличия - допустим 0.95) с которой мы будем оценивать нулевую гипотезу Н0: «отличия эмпирического и теоретического распределений являются случайными».

Тогда =0.05, напомним, называем уровнем значимости такого отличия . Понятно что если мы как-то определили некоторое критическое значение которое соответствуетпринятому уровню. значимости иколичеству степ свободы то все расчетные будут подтверждать нашу гипотезу Н0, то есть критическая область не принятия Н0 остается справа .

Ну а для определения критических значений разработаны специальные таблицы

· Т.о. сформулируем правило проверки нулевой гипотезы:

Для того, чтобы при заданном уровне значимости проверить нулевую гипотезу H0: «генеральная совокупность распределена нормально», необходимо расчитать наблюдаемые (эмпирические) частоты , определить теоретические частоты , затем рассчитать значение критерия и по таблице критических точек распределения , по заданному уровню значимости α и числу степеней свободы v=k-1-m найти критическую точку .

Если – то нулевую гипотезу принимаем. В противном случае нулевую гипотезу отвергают, считая, что генеральная совокупность не распределена по нормальному закону.

Пример

При уровне значимости 0, 05 проверить гипотезу о нормальном распределении генеральной совокупности, если известны эмпирические и теоретические частоты:

Эмпирические частоты: 6 13 38 74 106 85 30 14

Теоретические частоты: 3 14 42 82 99 76 37 13

Рассчитаем =7, 19, число степеней свободы определим по соотношению k= 8–3=5 (в нашем случае s=8). Используя рассчитанные значения и k, по таблице критических точек распределения хи-квадрат при уровне значимости находим .

Таблица критических точек распределения Пирсона.

Так как , нулевая гипотез применяется. Данные наблюдений согласуются с гипотезой о нормальном распределении генеральной совокупности.

Напомним еще раз упоминавшуюся выше проблему;

Так как в механизме оценки степени отличия распределений по не участвует в явном виде объем выборки n то формально объём выборки должен быть достаточно велик (то-бы распред А) приближалось к )Кроме того каждая группа должна содержать не менее 5–8 точек, малочисленные группы объединяют в одну, суммируя частоты и тд

В инете вы найдете море критического материала по поводу применения теории стат гипотез «неграмотными» специалистами на объемах выборки 40, 50, 70 и даже более пациентов.

Однако к счастью для этих исследователей (просто часто они не в курсе) существует результат, позволяющий резко ограничить объем необходимой выборки для получения достоверного ответа о нормальности проверяемого распределения

Рассмотрим на практике основной подход к определению нормальности распределения: правило 3 сигма .

Если внешне ваше распределение не сильно отличается от нормального то утвердится в этом дает возможность правило 3 сигма.

Если просчитать для нормального

Закона

вероятность попадання СВ за

пределы отклонения от МО на 3σ,

то окажется что оно практически =0, точнее при нормальном распределении вероятность попадания очередного фактического значения в доверительный интервал 3σ составят 99, 7%.

Поэтому, если оцениваемое распределение «на глаз не сильно отличается от нормального» то на практике вместо применения теории Стат проверки гипотез применяют правило 3σ в обратную сторону

Если в интервал 3σ попадает не менее 99, 7% реализаций то рассматриваемое распределение нормально.

Правило «двух сигм».

С вероятностью близкой к единице (0, 9544) можно утверждать, что значения нормально распределенной СВ лежат в интервале

то есть, если проведено 10 000 испытаний, то результаты 9544 испытаний должны принадлежат указанному промежутку .

Вот теперь поставим вопрос - а какое минимальное количество испытаний достаточно провести для того чтобы убедится в нормальности распределения исходя из правила «двух сигм» (альфа = 0.95 )

Применение гипотеза Хилла для оценки минимально необходимого объема выборки. Клюшин Дмитрий Анатольевич, Доказательная медицина. Применение статистических методов.

Пусть генеральная совокупность СлВел-ы с неизвестным симметричным распределением вероятности , а R множество действительных чисел.

Основной распределеной массой называется подмножество такое, что , где - произвольный элемент выборки, который получен с помощью случайного отбора (по рр закону?? ) из , - заданный уровень значимости ( допустим ).

Пусть выполнено следующее:

1. Для получения выборки используется случайный выбор. Обозначим как - члены соответствующего выриационного ряда.

Напомним: вариационный ряд - это выборка , упорядоченая по величине и полученная последовательность обозначена как

2.Выборочные значения являются реализацией СВ с симметричным абсолютно непрерывным распределением

Тогда выполняется гипотеза Хилла:

(1)

(Все доказательства пока опустим)

Теорема 1

Если симметрично зависимые одинаково распределенные случайные величины с абсолютно непрерывной функцией распределения такой, что при , то

Теорема 2.

Если симметрично зависимые одинаково распределенные случайные величины с абсолютно непрерывной ф-цией распределения такой, что

при , а – вариацоный ряд, построенный из первых n значений, то

Свяжем этот результат с

уровнем значимости α, как он

введен выше. Уровень значимости

определен так, что 5% точек

попадает в хвосты.

Значит, считая что хотя бы 1 интервал вариационного ряда попал какой-то из 2-х хвостов (это определяет минимальное количество точек в выборке, что-бы данное событие произошло) то можно написать что . Отсюда при заданном α можно записать

и получить оценку для n:

Отсюда при α =0, 05 имеем

То мы нашли минимальное количество испытаний достаточное для проверки утверждения: если полученные реализации не вышли за пределы +-2сигма - то похожее на нормальное распределение - действительно нормальное

??????? Данное утверждение находит связь между значимостью результата (0.05) и минимальным количеством точек, которые нужны для утверждения гипотезы допустим Н0. Условием корректности применения оценки для n есть симметричность и непрерывность рассматриваемых распределений.

Это дает наконец точку опоры для применения теории статичтических гbпотез для относительно небольшиз размеров выборки.

Небольшое отвлечение -

Об условиях применения гипотезы Хилла - напомним

она применима к СВ которые имеют симметричные и абсолютно непрерывные плотности распределения

Что такое не абсолютно непрерывная функция - это такая непрерывная функция у которой нет производной в несчетном количестве точек.

рис 33

Канторова лестница - граффик массы канторова стержня от коорд-ы х

канторов стержень - стержень масса которого пропорциональна мощности канторова множества Канторово множество

Множества C0, C1, C2, C3, C4, C5, C6

C=⋂ С_i i=0,...∞ называется Канторовым множеством.

Из единичного отрезка C0=[0, 1] удалим среднюю треть, то есть интервал (1/3, 2/3). Оставшееся точечное множество обозначим через C1. Множество C1=[0, 1/3]∪ [2/3, 1] состоит из двух отрезков; удалим теперь из каждого отрезка его среднюю треть, и оставшееся множество обозначим через C2. Повторив эту процедуру опять, удаляя средние трети у всех четырёх отрезков, получаем C3. Дальше таким же образом получаем последовательность замкнутых множеств C0⊃ C1⊃ C2⊃ …. Пересечение

СВ с Пл Р как видоизм кантор лестница рис. 33 - будет

непр но не абсолютно непрерывна

4 Независимость распределения остатков

отдельно проверяют независимость остатков -с помощью вида автокорреляционной функции

где – среднее арифметическое произведения двух рядов наблюдений, взятых с лагом k

– значение среднего уровня ряда x₁₊_k_,x₂₊_k, …, x_n:

– значение среднего уровня ряда x₁, x₂, …, x_n–_k:

где к -сдвиг, D- дисперсия остатков. По смыслу это коэффициент корреляции между остатками со сдвигом с к шагами.

То есть чем он больше тем жеще лин связь между остатками и меньше речи обм их независимости.

Для конечного ряда из n наблюдений с задержкой k:

Автокор через несмещ оценку дисперсии

Если АВКФ будет похожа на ниже приведенную -

то все хорошо – остатки похоже независимы (надо только помнить

что автокорреляция проверяет только линейную независимость величин, независимы ли они на самом деле – вопрос более сложного анализа)

Любые другие варианты – плохо

Например практически незатухающий график АКФ ряда свидетельствует о наличии сильного неучтенного в модели тренда.

Вот здесь есть умеренный тренд и неясно выраженной сезонностью

А здесь сильная периодическая составляющая осталась в остатках – ее можно вытащить – об этом позже

5=============???? 4 лист или плюс

⇐ Предыдущая 1 2 3 456 7 8 9 10 Следующая ⇒
Поделиться:

Последнее изменение этой страницы: 2017-04-12; Просмотров: 1445; Нарушение авторского права страницы