Генеральная совокупность и выборка

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

Математическая статистика - это раздел прикладной математики, в котором рассматриваются методы отыскания законов и характеристик случайных величин по результатам наблюдений и экспериментов.

Основные задачи математической статистики.

1. Создание методов сбора и группировки обрабатываемого статистического материала, полученного в результате наблюдений за случайными процессами.

2. Разработка методов анализа полученных статистических данных.

3. Получение выводов по данным наблюдений.

Анализ статистических данных включает оценку вероятностей события, функции распределения вероятностей или плотности вероятностей, оценку параметров известного распределения, оценку связей между случайными величинами.

Математическая статистика опирается на теорию вероятностей и в свою

очередь служит основой для разработки методов обработки и анализа статистических результатов в конкретных областях человеческой деятельности.

ВЫБОРКА И ЕЕ РАСПРЕДЕЛЕНИЕ

Генеральная совокупность и выборка

Основными понятиями математической статистики являются генеральная совокупность и выборка.

Определение. Генеральная совокупность – это совокупность всех мысленно возможных объектов данного вида, над которыми проводятся наблюдения с целью получения конкретных значений определенной случайной величины.

Генеральная совокупность может быть конечной или бесконечной в зависимости от того, конечна или бесконечна совокупность составляющих ее объектов.

Не следует смешивать понятие генеральной совокупности с реально существующими совокупностями. Например, на склад поступила продукция некоторого цеха за месяц, что является реально существующей совокупностью, которую нельзя назвать генеральной, поскольку выпуск продукции можно мысленно продолжить сколь угодно долго.

Определение. Выборкой (выборочной совокупностью)называется совокупность случайно отобранных объектов из генеральной совокупности.

Выборка должна быть репрезентативной (представительной), то есть ее объекты должны достаточно хорошо отражать свойства генеральной совокупности.

Выборка может быть повторной, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность, и бесповторной, при которой отобранный объект не возвращается в генеральную совокупность.

Применяют различные способы получения выборки.

1)Простой отбор – случайное извлечение объектов из генеральной совокупности с возвратом или без возврата.

2) Типический отбор, когда объекты отбираются не из всей генеральной совокупности, а из ее «типической» части.

3) Серийный отбор – объекты отбираются из генеральной совокупности не по одному, а сериями.

4) Механический отбор - генеральная совокупность «механически» делится на столько частей, сколько объектов должно войти в выборку и из каждой части выбирается один объект.

Число объектов генеральной совокупности и число объектов выборки называют объемами генеральной и выборочной совокупностей соответственно. При этом предполагают, что (значительно больше).

Вариационные ряды

Полученные различными способами отбора данные образуют выборку, обычно это множество чисел, расположенных в беспорядке. По такой выборке трудно выявить какую-либо закономерность их изменения (варьирования).

Для обработки данных используют операцию ранжирования, которая заключается в том, что результаты наблюдений над случайной величиной, то есть наблюдаемые значения случайной величины располагают в порядке возрастания.

Пример 1. Дана выборка:

¦ Проведем ранжирование выборки: ?

После проведения операции ранжирования значения случайной величины объединяют в группы, то есть группируют так, что в каждой отдельной группе значения случайной величины одинаковы. Каждое такое значение называется вариантом. Варианты обозначаются строчными буквами латинского алфавита с индексами, соответствующими порядковому номеру группы .

Изменение значения варианта называется варьированием.

Определение. Последовательность вариантов, записанных в возрастающем порядке, называется вариационным рядом.

Число, которое показывает, сколько раз встречаются соответствующие значения вариантов в ряде наблюдений, называется частотой или весом варианта и обозначается , где - номер варианта.

Отношение частоты данного варианта к общей сумме частот называется относительной частотой или частостью (долей) соответствующего варианта и обозначается или , где - число вариантов. Частость является статистической вероятностью появления варианта . Естественно считать частость аналогом вероятности появления значения случайной величины .

Определение. Дискретным статистическим рядом называется ранжированная совокупность вариантов с соответствующими им частотами или частостями .

Дискретный статистический ряд удобно записывать в виде табл.1.

Таблица 1 (для примера 1)


						;
						.

Характеристики дискретного статистического ряда:

1. Размах варьирования .

2. Мода - вариант, имеющий наибольшую частоту

( в примере 1. ).

3. Медиана - значение случайной величины, приходящееся на середину ряда.

Пусть - объем выборки.

Если , то есть ряд имеет четное число членов, то . Если , то есть ряд имеет нечетное число членов, то .

( в примере 1. ).

Если изучаемая случайная величина является непрерывной или число значений ее велико, то составляют интервальный статистический ряд.

Сначала определяют число интервалов , в зависимости от объема выборки, с помощью табл.2.

Таблица 2.

Объем выборки	25-40	40-60	60-100	100-200	более 200
Число интервалов	5-6	6-8	7-10	8-12	10-15

Затем определяют длину частичного интервала :

, где - шаг; - число интервалов.

Более точно шаг можно рассчитать с помощью формулы Стерджеса:

, число интервалов .

Если шаг окажется дробным, то за длину интервала берут ближайшее целое число или ближайшую простую дробь (обычно берут интервалы одинаковые по длине, но могут быть интервалы и разной длины).

За начало первого интервала рекомендуется брать величину , а конец последнего должен удовлетворять условию . Промежуточные интервалы получают, прибавляя к концу предыдущего интервала шаг.

Просматривая результаты наблюдений, определяют сколько значений случайной величины попало в каждый конкретный интервал. При этом в интервал включают значения, большие или равные нижней границе интервала, и меньшие – верхней границы.

В первую строку таблицы статистического распределения вписывают частичные промежутки .

Во второю строку статистического ряда вписывают количество наблюдений (где ) попавших в каждый интервал; то есть частоты соответствующих интервалов.

Подсчет частот для каждого интервала удобно проводить методом «конвертиков». Этот метод состоит в том, что попадание значения случайной величины в тот или иной интервал, отмечается точкой, а также и черточкой. В результате каждому десятку будет соответствовать фигура, похожая на конверт.

При вычислении интервальных частостей округление результатов следует производить таким образом, чтобы сумма частостей была равна 1.

Иногда интервальный статистический ряд, для простоты исследований, условно заменяют дискретным. В этом случае серединное значение -го интервала принимают за вариант , а соответствующую интервальную частоту - за частоту этого варианта.

Пример 2.

Построить эмпирическую функцию и ее график по данным табл.1

Рис. 1

Асимметрия. Эксцесс.

Приведем краткий обзор характеристик, которые наряду с уже рассмотренными применяются для анализа статистических рядов и являются аналогами соответствующих числовых характеристик случайной величины.

Среднее выборочное и выборочная дисперсия являются частным случаем более общего понятия – момента статистического ряда.

Определение. Начальным выборочным моментом порядка называется среднее арифметическое - х степеней всех значений выборки:

или .

Из определения следует, что начальный выборочный момент первого порядка: .

Определение. Центральным выборочным моментом порядка называется среднее арифметическое - хстепеней отклонений наблюдаемых значений выборки от выборочного среднего :

или .

Из определения следует, что центральный выборочный момент второго порядка :

Определение . Выборочным коэффициентом асимметрииназывается число , определяемое формулой: .

Выборочный коэффициент асимметрии служит для характеристики асимметрии полигона вариационного ряда. Если полигон асимметричен, то одна из ветвей его, начиная с вершины, имеет более пологий «спуск», чем другая.

Если , то более пологий «спуск» полигона наблюдается слева; если - справа. В первом случае асимметрию называют левосторонней, а во втором - правосторонней.

Определение. Выборочным коэффициентом эксцесса или коэффициентом крутости называется число , определяемое формулой:

Выборочный коэффициент эксцесса служит для сравнения на «крутость» выборочного распределения с нормальным распределением.

Коэффициент эксцесса для случайной величины, распределенной по нормальному закону, равен нулю.

Поэтому за стандартное значение выборочного коэффициента эксцесса принимают .

Если , то полигон имеет более пологую вершину по сравнению с нормальной кривой; если , то полигон более крутой по сравнению с нормальной кривой.

СТАТИСТИЧЕСКИЕ ОЦЕНКИ

Одной из центральных задач математической статистики является задача оценивания теоретического распределения случайной величины на основе выборочных данных.

При этом часто предполагается, что вид закона распределения генеральной совокупности известен, но неизвестны параметры этого распределения, такие как математическое ожидание, дисперсия. Требуется найти приближенные значения этих параметров, то есть получить статистические оценки указанных параметров.

Определение . Статистической оценкой параметра теоретического распределения называют его приближенное значение, зависящее от данных выбора.

Рассматривая выборочные значения как реализации случайных величин , получивших конкретные значения в результате опытов, можно представить оценку как функцию этих случайных величин: . Это означает, что оценка тоже является случайной величиной.

Если для оценки взять несколько выборок, то получим столько же случайных оценок .

Если число наблюдений невелико, то замена неизвестного параметра оценкой приводит к ошибке, которая тем больше, чем меньше число опытов.

Точечные оценки

Статистические оценки могут быть точечными и интервальными.

Точечные оценки представляют собой число или точку на числовой оси. Чтобы оценка была близка к значению параметра , она должна обладать свойствами состоятельности, несмещенности и эффективности.

Определение. Оценка параметра называется состоятельной, если она сходится по вероятности к оцениваемому параметру, то есть для любого :

Поясним смысл этого равенства.

Пусть - очень малое положительное число. Тогда данное равенство означает, что чем больше объем выборки , тем ближе оценка приближается к оцениваемому параметру .

Свойство состоятельности нужно проверять в первую очередь. Оно обязательно для любого правила оценивания. Несостоятельные оценки не используются.

Определение. Оценка параметра называется несмещенной, если , то есть математическое ожидание оценки равно оцениваемому параметру. Если , то оценка называется смещенной.

Это свойство оценки желательно, но не обязательно. Часто полученная оценка бывает смещенной, но ее можно поправить так, чтобы она стала несмещенной.

Иногда, оценка бывает асимптотически несмещенной ,

то есть .

Требования несмещенности особенно важно при малом числе опытов.

Определение. Несмещенная оценка параметра называется эффективной, если она среди всех несмещенных оценок, в определенном классе оценок данного параметра, обладает наименьшей дисперсией.

Можно показать, что:

- является состоятельной, несмещенной и эффективной оценкой в классе линейных оценок;

- является состоятельной, смещенной оценкой ;

- является состоятельной, несмещенной оценкой ;

(при больших разница между и мала.

используется при малых выборках, обычно при );

- относительная частота появления события в независимых испытаниях является состоятельной, несмещенной и эффективной оценкой, в классе линейных оценок, неизвестной вероятности ( - вероятность появления события в каждом испытании);

- эмпирическая функция распределения выборки является состоятельной, несмещенной оценкой функции распределения случайной величины .

Для нахождения оценок неизвестных параметров используют различные методы. Наиболее распространенными являются: метод моментов, метод максимального правдоподобия (ММП), метод наименьших квадратов (МНК).

Интервальные оценки

При выборке малого объема точечная оценка может существенно отличаться от оцениваемого параметра. В этом случае целесообразно использовать интервальные оценки.

Определение. Интервальнойназывают оценку, которая определяется двумя числами – концами интервала.

Пусть найденная по данным выборки величина служит оценкой неизвестного параметра . Оценка определяет тем точнее, чем меньше , то есть чем меньше в неравенстве .

Поскольку - случайная величина, то и разность - случайная величина. Поэтому неравенство , при заданном может выполняться только с некоторой вероятностью.

Определение. Доверительной вероятностью ( надежностью) оценки параметра называется вероятность , с которой выполняется неравенство .

Обычно задается надежность и определяется . Чаще всего надежность задается значениями от 0, 95 и выше, в зависимости от конкретно решаемой задачи.

Неравенство можно записать .

Определение. Доверительным интервалом называется интервал , который покрывает неизвестный параметр с заданной надежностью .

Сущность метода

Множество всех значений критерия разбивают на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза отвергается; другое – при которых она принимается.

Критической областью называется совокупность значений критерия, при которых нулевую гипотезу отвергают.

Областью принятия гипотезы (областью допустимых значений) называется совокупность значений критерия, при которых нулевую гипотезу принимают.

Обозначим критическую область .

Если вычисленное по выборке значение критерия попадает в критическую область , то гипотеза отвергается и принимается гипотеза . В этом случае можно совершить ошибку первого рода, вероятность которой равна . Иначе, вероятность того, что критерий примет значение из критической области , должна быть равна заданному значению , то есть .

Критическая область определяется неоднозначно. Возможны три случая расположения . Они определяются видом нулевой и альтернативной гипотез и законом распределения критерия .

Правосторонняя критическая область (рис.4 а) состоит из интервала , где определяется из условия и называется правосторонней точкой, отвечающей уровню значимости .

Левосторонняя критическая область (рис.4 б) состоит из интервала , где определяется из условия и называется левосторонней точкой, отвечающей уровню значимости .

Двусторонняя критическая область (рис.4 в) состоит из следующих двух интервалов: и , где точки и определяются из условий и

и называются двусторонними критическими точками.

Рис.4

Проверка гипотезы

По критерию Пирсона

Пусть выборка из генеральной совокупности задана в виде статистического интервального ряда ряда:

где - интервальные частоты, - объем выборки,

- число интервалов, - длина интервала, - середина интервала.

Требуется проверить гипотезу о том, что генеральная совокупность распределена по нормальному закону, применяя критерий Пирсона. (К.Пирсон, 1857-1936 г; английский математик, биолог, философ).

Правило проверки

1. Вычисляем и ( см. Пример 5).