Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


МАТЕМАТИЧЕСКАЯ СТАТИСТИКА



МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

Введение

Теоретической основой МС является теория вероятностей. Чтобы качественно использовать теоретические положения теории вероятностей в МС вводят понятие признака – некоторой функции без фиксированной области определения. Например, в качестве признака Х можно рассматривать размер заработной платы, значения которого могут определяться и на множестве работников бюджетной сферы, и на множестве менеджеров высшего звена компаний, как в пределах некоторого региона, так и в масштабах всей страны. Фиксированная область определения, связанная с признаком, называется статистической совокупностью.

Генеральная совокупность (ГС) - множество всех мыслимых объектов, однородных относительно некоторых признаков, доступных для наблюдения и количественного измерения. Число всех элементов ГС называется ее объемом (обозначается N). С математической точки зрения ГС является случайной величиной.

Характеристики признака в ГС называют генеральными характеристиками (это генеральное среднее, генеральная дисперсия и др.), они не являются случайными величинами – это числа.

Прямое изучение ГС очень трудоёмко, да и не всегда возможно или оправдано. ГС изучаются на основе выборочных совокупностей или выборок, которые должны достаточно хорошо отражать пропорции ГС. Такая выборка называется репрезентативной. Репрезентативность выборки обеспечивается путем случайного отбора и достаточным объемом выборки.

Выборка - часть случайно отобранных для изучения элементов ГС. Объем выборки обычно обозначается n.

По способу отбора элементов различают два типа случайных выборок: повторная и бесповторная (схемы возвращенного и невозвращенного шара), поэтому бесповторная выборка состоит из различных объектов.

Эмпирические характеристики признака в выборочной совокупности называются выборочными характеристиками признака Х. Понятно, что выборочные характеристики являются случайными величинами (это выборочное среднее, выборочная дисперсия и т.д.).

Закон больших чисел является теоретической основой для применения выборочного метода: при неограниченном увеличении объёма выборки её характеристики сколь угодно близко приближаются к характеристикам ГС.

Одна из задач МС состоит в том, чтобы на основе анализа выборочной совокупности установить неизвестное распределение вероятностей ГС или объективно оценить параметры ее распределения.

Вариационные ряды

Пусть, из ГС извлечена выборка объема n, измерена некоторая величина Х, в результате чего получено множество значений  (некоторые значения могут повторяться неоднократно). Это множество называется простым статистическим рядом.

Набор элементов выборки, расположенных по неубыванию или по невозрастанию, называется вариационнымрядом. Различные значения выборки называют вариантами.

Его записывают: , где .

Размахом выборки называется разность между наибольшей и наименьшей вариантой, т.е. длина интервала, которому принадлежат все варианты выборки:

Число, показывающее, сколько раз вариант xi встречается в ряду, называются его частотой и обозначаются n i, а ее отношение к объему выборки n i/n=ωiотносительной частотой или частостью.

                          (1)

Перечень вариант и соответствующих им частот или частостей называется статистическим (эмпирическим) распределением выборки или дискретным вариационным рядом, а частоты и частости – весами.

 

Статистическое распределение частот

Таблица 1

xi x1 x2 xk 𝛴
ni n1 n2 nk n

Общий вид статистического распределения частостей

Таблица 2

xi x1 x2 xk 𝛴
ωi=n i/n ω1 ω2   ωk 1

 

Графическим изображением дискретного вариационного ряда является полигон частот (или полигон относительных частот) - ломаная линия, отрезки которой соединяют точки с координатами  или  соответственно,

Накопленная частота показывает, сколько было наблюдений со значением признака, меньшим или равным данного значения  Накопленную частоту будем обозначать . Накопленная относительная частота -

Эмпирической функцией распределения F *(x) называется функция, определяющая для каждого значения х относительную частоту того, что признак Х принимает значение меньше заданного.

Из определения следует, что для каждого значения переменной  эмпирическая функция F *(x) представляет собой :

                       (2)

Эмпирическая функция распределения F *(x) является кусочно-постоянной функцией. Точки разрыва - варианты, а скачки - их частости.

 

                          (3)

 

Функция F *(x) обладает всеми свойствами теоретической функции распределения F(x). Эмпирическая функция F *(x) даёт приближенное представление о теоретической функции распределения F(x) ГС.

Графическим изображением эмпирической функции распределения, кроме её графика, служит кумулята - кривая накопленных частот (или накопленных частостей). Для дискретного вариационного ряда кумулятивная кривая представляет собой ломаную линию, соединяющую точки  или точки ,

Пример 1. Имеются данные об уровне квалификации 24 служащих фирмы: 4; 3; 6; 4; 4; 2; 3; 5; 4; 4; 5; 2; 3; 4; 4; 5; 2; 3; 6; 5; 4; 2; 4; 3. Составить вариационный ряд и статистическое распределение выборки, построить полигон частот и относительных частот, составить эмпирическую функцию распределения, построить ее график и кумулятивную кривую.

Р е ш е н и е. На основе данных сформируем вариационный ряд, для этого наблюдаемые значения признака расположим в неубывающем порядке:

2; 2; 2; 2; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 6; 6.

Теперь зададим частотное распределение выборки. Так как требуется составить эмпирическую функцию распределения и построить графики, добавим в таблицу еще две строки:

 

Таблица 3

xi 2 3 4 5 6 𝛴
ni 4 5 9 4 2 24
ωi=n i/n 4/24 5/24 9/24 4/24 2/24 1
4/24 9/24 18/24 22/24 1  

 

Построим полигоны частот и частостей, используя вторую и третью строки таблицы 3:

 

 

Составим эмпирическую функцию распределения, пользуясь формулой (3.1) и последней строкой таблицы.

 

 

Построим кумуляту и график функции F *(x), используя последнюю строку таблицы 3.

 

 

Самостоятельная работа №1.

Задача 1.1. Из генеральной совокупности извлечена выборка объема n=120. Полигон частот изображен на рисунке. Найти относительную частоту варианты  в этой выборке.

Задача 1.2. Из генеральной совокупности извлечена выборка объема n=100. Полигон относительных частот изображен на рисунке. Найти частоту варианты  в этой выборке.

 

Самостоятельная работа №2.

Задача 2.1. Построить гистограмму частот и относительных частот по заданному распределению выборки. Составить эмпирическую функцию распределения, построить ее график.

 

Интервал 2-7 7-12 12-17 17-22 22-27
Частота 5 10 25 6 4

Задача 2.2. Из генеральной совокупности извлечена выборка объёма 200, гистограмма относительных частот которой имеет вид. Найти значение параметра а. Построить интервальный ряд распределения данной выборки с указанием частот и относительных частот.

 

Задача 2.3. Из генеральной совокупности извлечена выборка объёма 150, гистограмма частот которой имеет вид. Найти значение параметра а. Построить интервальный ряд распределения данной выборки с указанием частот и относительных частот.


 


Меры вариации

Наибольший интерес представляют меры рассеяния наблюдений вокруг средних величин, в частности вокруг выборочной средней.

4. Выборочная дисперсия:

                                (8)

                     (9)

5. Среднее квадратическое отклонение (СКО):

                                                 (10)

 

Свойства выборочной дисперсии аналогичны свойствам дисперсии случайной величины:

· Дисперсия постоянной равна нулю.

· Если все варианты умножить на некоторую константу с, то дисперсия и среднее квадратическое отклонение умножатся соответственно на с2 и

· Если все варианты увеличить (уменьшить) на одно и то же число с, то дисперсия и среднее квадратическое отклонение не изменятся.

6. Выборочные начальные моменты r –го порядка:

                                 (11)

7. Выборочные центральные моменты r –го порядка:

                           (12)

Заметим, что

Центральные моменты можно выразить через начальные. Справедливы следующие соотношения:

(13)

Если распределение симметрично относительно математического ожидания, то все центральные моменты нечетного порядка равны нулю.

 

8. Асимметрия и эксцесс используются для количественной оценки различия между теоретическим и эмпирическим распределениями, если выполняется гипотеза о нормальном распределении ГС. При положительной асимметрии кривая распределения «вытянута» вправо от моды, при отрицательной – влево. Если эксцесс положительный, то кривая имеет более высокую вершину, чем нормальная кривая, а если эксцесс отрицательный, то кривая имеет более низкую вершину.

                                            (14)

                                       (15)

 

9. Относительной мерой рассеяния является коэффициент вариации – процентное отношение среднего квадратического к выборочной средней, т.е.

                                   (16)

Пример 3. Для дискретного ряда из примера 1 найти его выборочные характеристики: моду, медиану, выборочную среднюю, дисперсию и среднее квадратическое отклонение, коэффициент вариации, асимметрию и эксцесс.

Р е ш е н и е. Дискретный вариационный ряд имеет вид:

 

xi 2 3 4 5 6  
4 5 9 4 2

 

1) Мода дискретного ряда равна 4, так как это значение встречается наиболее часто (соответствующая ему частота - наибольшая - равна 9).

2) Так как число вариант четно (24), то медиана равна полусумме двух срединных вариант, т.е. 12-го и 13-го:

3) Рассчитаем средний уровень квалификации служащих фирмы, а также остальные числовые характеристики. Вычисления удобнее проводить при помощи расчетной таблицы:

 

xi ni xini xi-xср (xi-xср)2ni (xi-xср)3ni (xi-xср)4ni
2 4 8 -1,792 12,840 -23,005 41,218
3 5 15 -0,792 3,134 -2,481 1,964
4 9 36 0,208 0,391 0,081 0,017
5 4 20 1,208 5,840 7,057 8,527
6 2 12 2,208 9,753 21,539 47,565
𝛴 24 91   31,958 3,191 99,291

 

По формуле (5) находим выборочную среднюю:

По формулам (8) и (10) находим выборочные дисперсию и среднее квадратическое отклонение:

Чтобы найти коэффициенты асимметрии и эксцесса по формулам (14) и (15), вычислим сначала центральные моменты третьего и четвертого порядков по формуле (12):

Таким образом:

И, наконец, коэффициент вариации по формуле (15):

Пример 4. Для интервального ряда из примера 2 найти его выборочные характеристики: моду, медиану, среднее арифметическое, дисперсию и СКО, коэффициент вариации, асимметрию и эксцесс.

Р е ш е н и е. Интервальный вариационный ряд имеет вид:

 

Интервалы Cумма
частоты 1 3 6 10 5 3 2 30
накопленные частоты 1 4 10 20 25 28 30  

 

Определим моду для интервального ряда по формуле (7). Модальный интервал (27;30), так как ему соответствует наибольшая частота, равная 10, нижняя граница интервала (начало интервала) равна 27, частота модального интервала – 10, частота предшествующего интервала – 6 и частота последующего интервала – 5:

Тогда

Определяем медианный интервал. Первая из накопленных частот, которая превышает половину объема выборки (т.е. 15), равна 20. Ей соответствует интервал (27;30), который и будет медианным. Нижняя граница этого интервала al равна 27, его частота nl – 10, накопленная частота интервала, предшествующего медианному  – 10 , объем выборки – 30 и длина каждого частичного интервала – 3. Теперь по формуле (6.1) вычислим медиану:

Тогда

Для вычисления остальных характеристик необходимо перейти к дискретному ряду, приняв в качестве варианты  такого ряда серединные значения интервалов разбиения, а соответствующую интервальную частоту  принимаем за частоту этого варианта: .

 

[yk-1;yk] xi ni xini xi-xср (xi-xср)2ni (xi-xср)3ni (xi-xср)4ni
[18;21) 19,5 1 19,5 -9,2 84,64 -778,688 7163,93
[21;24) 22,5 3 67,5 -6,2 115,32 -714,984 4432,901
[24;27) 25,5 6 153 -3,2 61,44 -196,608 629,146
[27;30) 28,5 10 285 -0,2 0,4 -0,08 0,016
[30;33) 31,5 5 157,5 2,8 39,2 109,76 307,328
[33;36) 34,5 3 103,5 5,8 100,92 585,336 3394,949
[36;39] 37,5 2 75 8,8 154,88 1362,944 11993,907
𝛴   30 861   556,8 367,68 27922,18

 

Дальнейшие расчеты как в примере 3. По формуле (5) находим выборочную среднюю:

По формулам (8) и (10) находим выборочные дисперсию и среднее квадратическое отклонение:

Вычислим сначала центральные моменты третьего и четвертого порядков, а затем коэффициенты асимметрии, эксцесса и вариации.

 

Самостоятельная работа №3.

Задача 3.1. Для выборки из задачи 2.1 вычислить все эмпирические характеристики признака.

Задача 3.2. В результате четырех измерений некоторой величины одним прибором (без систематических ошибок) получены следующие результаты: 8, 9, 11, 12. Найти медиану, выборочное среднее результатов измерений, выборочные дисперсию и стандартное отклонение ошибок прибора.

Задача 3.3. В результате пяти измерений некоторой величины одним прибором (без систематических ошибок) получены следующие результаты: 92, 94, 103, 105, 106. Найти медиану, выборочное среднее результатов измерений, выборочные дисперсию и стандартное отклонение ошибок прибора.

Точечные оценки

Точечной оценкой называют некоторую функцию результатов наблюдений , значение которой принимают за наилучшее приближение в данных условиях к значению параметра θ ГС.

Оценка  (в отличие от оцениваемого параметра θ – величины неслучайной) является случайной величиной, зависящей от закона распределения ГС и числа наблюдений n.

Требования к точечным оценкам

Выбор той или иной функции в качестве наилучшей оценки оцениваемого параметра θ производится с учетом удовлетворения следующих требований: несмещенность, состоятельность и эффективность.

1. Оценка  называется несмещённой, если ее математическое ожидание равно истинному значению оцениваемого параметра при любом объеме выборки: . В противном случае оценка называется смещенной.

2. Статистическая оценка  называется состоятельной, если с увеличением объема выборки n она сходится по вероятности к истинному значению параметра θ.

Практический смысл имеют только состоятельные оценки. Если оценка  параметра q является несмещенной, а ее дисперсия стремится к нулю при n®¥, то она является состоятельной.

3. Оценка параметра называется эффективной, если имеет наименьшую дисперсию в определенном классе оценок, вычисленных по выборкам одного и того же объема n.

 

Основные точечные оценки

В качестве оценок  числовых характеристик случайных величин естественно пытаться использовать их статистические аналоги, т. е. выборочные числовые характеристики ГС. Пусть дана выборка  из ГС Х с неизвестными математическим ожиданием  и дисперсией .

Выборочное среднее  является несмещенной и состоятельной оценкой математического ожидания (генеральной средней).

Исправленная выборочная дисперсия S 2  является несмещенной оценкой генеральной дисперсии:

                                       (17)

Для вычисления S2 можно использовать формулу:

                          (18)

Все выборочные начальные моменты являются несмещенными оценками начальных моментов ГС.

В качестве точечной оценки СКО чаще используют исправленное выборочное СКО, хотя свойством несмещенности оно не обладает:

                                               (19)

Все выборочные центральные моменты, выборочные коэффициенты асимметрии и эксцесса также являются смещенными оценками соответствующих параметров ГС.

 

Пример 5. С целью определения средней суммы вкладов в филиале банка произведено выборочное обследование, которое дало следующие результаты:

 

Сумма вклада, тыс. руб. [10;30) [30;50) [50;70) [70;90) [90;110) [110;130] Cумма
число вкладов 1 3 10 30 50 6 100

 

Пользуясь этими данными, найти несмещенные оценки генеральной средней и генеральной дисперсии.

Р е ш е н и е. Для вычисления соответствующих характеристик составим расчетной таблицы:

 

концы интервалов yi середина интервала xi ni xini xi 2 ni
0 10        
1 30 20 1 20 400
2 50 40 3 120 4800
3 70 60 10 600 36000
4 90 80 30 2400 192000
5 110 100 50 5000 500000
6 130 120 6 720 86400
  𝛴   100 8860 819600

 

Несмещенной оценкой генеральной средней является выборочное среднее, которое вычислим по формуле (5):

Для нахождения несмещенной оценки генеральной дисперсии, вычислим сначала выборочную дисперсию по формуле (9):

Исправленные выборочные дисперсию и среднее квадратическое отклонение (СКО) найдем по формулам (17) и (19):

Самостоятельная работа № 4.

Задача 4.1. Генеральная совокупность изучается по случайной выборке объема 100, результаты отражены в таблице:

 

Значения 5 10 15
Частоты 15 30 55

 

Найти несмещенные оценки генеральной средней и генеральной дисперсии.

Задача 4.1. По выборке объема 100 оценивалась генеральная дисперсия. Выборочная дисперсия оказалась равной 1,287. Найти несмещенную оценку генеральной дисперсии.

Задача 4.2. По выборке объема 25 оценивалась генеральная дисперсия. Несмещенная оценка оказалась равной 12,5. Найти выборочную дисперсию.

Задача 4.3. Цены акций в генеральной совокупности подчиняется нормальному распределению. В случайной выборке из четырех акций цены составили 5, 12, 17 и 10 у.д.е. Вычислить несмещенные точечные оценки генеральной средней и генеральной дисперсии, а также точечную оценку среднего квадратического отклонения.

Задача 4.4. В результате четырех измерений некоторой величины одним прибором (без систематической ошибки) получены следующие результаты: 8; 9; 11; 12. Найти смещенную и исправленную выборочные дисперсии ошибок прибора.



Нормального распределения

Пусть x1, x2, . . . , x n выборка объема n из генеральной совокупности X, распределенной по нормальному закону с параметрами а и s2.

Рассмотрим два варианта построения интервальных оценок для параметра а. Пусть γ – заданная доверительная вероятность.

 

1. Доверительный интервал для оценки неизвестной генеральной средней М(Х)=a при известной генеральной дисперсии  имеет вид:

                            (20)

где  - выборочное среднее; n – объем выборки;  - известное среднее квадратическое отклонение ГС;  Ф(z) –функция Лапласа.

Excel 2010: .

 

2. Доверительный интервал для оценки неизвестной генеральной средней М(Х) при неизвестной генеральной дисперсии имеет вид:

                              (21)

где  - выборочное среднее; n – объем выборки; S - исправленное СКО;  - квантиль уровня (1+g)/2 распределения Стьюдента с n -1 степенями свободы.

Excel 2010:

Excel 2007:

Точность оценки  называют классической:

1) чем больше n , тем меньше D и, следовательно, точность оценки увеличивается (длина интервала уменьшается);

2) чем больше , тем больше zg и, следовательно, возрастает D: увеличение надежности оценки влечет за собой уменьшение ее точности.

Минимальный объем выборки для оценки математическое ожидание с наперед заданной точностью D и надежностью , находят по формуле:

                                        (22)

 

Пример 6. Найти доверительный интервал для неизвестного математического ожидания а нормально распределенной генеральной совокупности с надежности , если дисперсия генеральной совокупности известна и равна 9, а выборочное среднее равно 5, при объеме выборки, равной 36.

Р е ш е н и е. Так как ГС распределена по нормальному закону и известна ее дисперсия, то воспользуемся формулой (20).

Из условия , по таблице значений функции Лапласа находим  и определяем точность оценки:

Окончательно, доверительный интервал имеет вид:

Пример 7. Каким должен быть объем выборки при обследовании остатков на расчетных счетах у клиентов банка, чтобы с вероятностью 0,762 ошибка репрезентативности не превышала 5 тыс. руб., если генеральное среднее квадратическое отклонение равно 120 тыс. руб.

Р е ш е н и е. Так как ГС распределена по нормальному закону и известна ее дисперсия, то по таблице значений функции Лапласа находим

Необходимый объем выборки определим теперь по формуле (22):

Пример 8. Случайная выборка за 15 дней показала, что средняя (годовая) доходность определенных акций равна 10,37% с исправленным стандартным отклонением  Предполагая, что доходность акций подчиняется нормальному закону распределения, построить доверительный интервал для средней доходности этого вида акций с надежностью 0,95.

Р е ш е н и е. ГС распределена по нормальному закону, генеральная дисперсия неизвестна, то применим формулу (21).

Пользуясь таблицей квантилей распределения Стьюдента при  и , находим

Определяем точность оценки:  Окончательно, доверительный интервал с надежностью 0,95 имеет вид:

Самостоятельная работа № 5.

Задача 5.1. Анализ средней доходности некоторых акций на основе случайной выборки за 16 дней показал, что средняя (годовая) доходность составляет 10,37%. Известно, что генеральная дисперсия равна 4%. Предполагая, что доходность акций подчиняется нормальному закону распределения сформировать доверительный интервал для средней доходности с надежностью .

Задача 5.2. Аналитик фондового рынка оценивает среднюю доходность некоторых акций. Случайная выборка за 16 дней показала, что средняя доходность составляет 10,37% с исправленным средним квадратическим отклонением, равным 2,5%. Предполагая, что доходность акций подчиняется нормальному закону распределения найти доверительную вероятность того, что средняя доходность заключена в интервале (8,37;12,37).

Задача 5.3. Телефонная компания желает оценить среднюю продолжительность исходящих разговоров. Случайная выборка из 41 звонка дала среднюю продолжительность 14,5 минут с выборочным СКО 5,6 минут. Построить доверительные интервалы для средней продолжительности разговоров с надежностью 95% и 90%. Предполагается, что продолжительность телефонных разговоров подчинено нормальному закону. Задача 5.4. Найти минимальный объем выборки, при котором с надежностью  точность оценки генеральной средней будет равна 0,55. Выборка взята из нормальной ГС, стандартное отклонение которой равно 2,1.

Задача 5.5. Для анализа производительности труда были отобраны 15 работников предприятия. На основании проведенных испытаний была получена оценка изд./час. Предполагая, что производительность труда работников подчиняется нормальному закону распределения, определить с надежностью  границы доверительного интервала для генеральной дисперсии (генеральная средняя известна). (218,18; 958,47))

Задача 5.6. По данным выборки объема 16 из нормальной генеральной совокупности найдено исправленное среднее квадратическое отклонение . Найти доверительный интервал, покрывающий генеральную дисперсию и среднее квадратическое отклонение с надежностью 0,99 (генеральная средняя неизвестна). ((0,46; 3,41); (0,73;1,73))



Данные для расчетов

 

№ в-та Выборка
1 14 10 8 9 9 9 10 10 10 11 11 13 14 13 9 9 8 8 11 13 11 13 10 10
2 9 9 11 10 10 9 10 11 11 9 10 11 10 10 13 8 9 11 10 10 12 12 13 8 8
3 7 8 9 9 9 11 11 12 12 13 11 10 7 8 9 10 10 10 11 11 11 10 10 11 8
4 10 9 8 13 12 12 11 11 10 10 10 9 10 8 13 10 10 9 9 8 12 12 11 11 11 10
5 14 12 12 7 7 11 11 10 11 10 9 11 9 9 14 12 10 10 10 12 7 11 10 9 10
6 8 9 9 10 11 13 13 11 11 11 12 12 12 9 8 10 10 14 14 13 11 10 11 11 12
7 11 9 13 11 11 12 12 13 13 10 10 10 9 11 11 11 9 11 10 10 10 12 10 10
8 9 9 11 11 12 14 13 13 10 10 10 12 9 11 10 11 12 10 13 11 12 11 12 14
9 9 9 11 11 12 14 13 13 10 10 10 12 9 11 11 11 12 10 13 11 11 12 11 12 14
10 13 9 14 8 11 12 12 13 12 13 14 12 8 11 11 13 11 12 11 12 12 9 9 11 12
11 9 9 11 11 10 10 14 14 15 13 12 12 12 12 10 15 13 12 12 9 11 11 10 14 11
12 9 9 14 11 11 10 10 12 12 12 12 13 14 11 10 12 13 13 14 11 10 10 11 11 13
13 9 12 10 10 10 11 12 12 11 11 12 11 12 13 13 14 12 11 9 10 13 14
14 12 10 13 12 11 11 11 11 11 9 12 12 12 9 11 10 10 13 14 11 10 13
15 8 11 11 11 13 12 12 10 9 11 13 9 8 10 10 9 11 11 12 10
16 8 7 8 9 8 10 10 11 11 7 11 9 9 9 9 9 10 10 8 11 12 9 8 9 10 10 12 7
17 11 11 11 11 10 9 9 12 10 12 9 8 11 8 10 10 13 11 10 11
18 12 15 8 14 14 9 10 10 12 12 11 11 13 11 12 11 10 13 13 9 10 11 12 11
19 8 9 10 11 11 13 13 12 12 12 14 9 10 11 12 13 11 11 10 10 11 14

 


 

Задание 2.По данному распределению выборки найти:

a) построить гистограмму относительных частот и кумуляту;

b) найти несмещенные оценки математического ожидания, дисперсии, среднего квадратического отклонения;

c) вычислить выборочные коэффициенты асимметрии, эксцесса и вариации;

d) найти моду и медиану.

 

Нахождение выборочных характеристик случайной величины провести с использованием условных переменных. Расчеты выполнять в Excel.

 


Данные для расчетов

 

Вариант 1.

 

Интервал 10-12 12-14 14-16 16-18 18-20 20-22 22-24
Частота 2 4 8 12 16 10 3

 

Вариант 2.

 

Интервал 61-65 65-69 69-73 73-77 77-81 81-85 85-89
Частота 2 6 9 14 10 5 4

 

Вариант 3.

 

Интервал 73-77 77-81 81-85 85-89 89-93 93-97 97-101
Частота 2 4 8 6 5 3 2

 

Вариант 4.

 

Интервал 49-52 52-55 55-58 58-61 61-64 64-67 67-70
Частота 3 6 11 19 30 21 10

 

Вариант 5.

 

Интервал 28-30 30-32 32-34 34-36 36-38 38-40 40-42 42-44
Частота 8 15 15 12 15 20 10 5

 

Вариант 6.

 

Интервал 54-58 58-62 62-66 66-70 70-74 74-78 78-82
Частота 10 14 26 28 12 8 2

 

Вариант 7.

 

Интервал 11-31 31-51 51-71 71-91 91-111 111-131
Частота 7 10 14 18 11 6

 

Вариант 8.

 

Интервал 102-104 104-106 106-108 108-110 110-112 112-114
Частота 5 10 17 12 8 3

 

Вариант 9.

 

Интервал 11-31 31-51 51-71 71-91 91-111 111-131 131-151
Частота 6 8 14 19 13 7 3

 

Вариант 10.

 

Интервал 79-81 81-83 83-85 85-87 87-89 89-91 91-93
Частота 4 8 18 21 15 9 5

 

Вариант 11.

 

Интервал 32-36 36-40 40-44 44-48 48-52 52-56
Частота 3 5 14 17 10 6

 

Вариант 12.

 

Интервал 20-22 22-24 24-26 26-28 28-30 30-32 32-34
Частота 3 5 9 12 15 7 4

 

Вариант 13.

 

Интервал 60-64 64-68 68-72 72-76 76-80 80-84 84-88
Частота 2 7 10 14 8 5 4

 

Вариант 14.

 

Интервал 53-57 57-61 61-65 65-69 69-73 73-77 77-81
Частота 2 3 7 10 8 6 4

 

Вариант 15.

 

Интервал 45-48 48-51 51-54 54-57 57-60 60-63 63-66
Частота 7 11 15 19 30 12 6

 

Вариант 16.

 

Интервал 48-50 50-52 52-54 54-56 56-58 58-60 60-62 62-64
Частота 5 11 16 24 18 15 7 4

 

Вариант 17.

 

Интервал 54-58 58-62 62-66 66-70 70-74 74-78 78-82
Частота 6 18 30 24 12 8 2

 

Вариант 18.

 

Интервал 11-31 31-51 51-71 71-91 91-111 111-131
Частота 5 7 16 12 8 2

 

Вариант 19.

 

Интервал 30-32 32-34 34-36 36-38 38-40 40-42 42-44
Частота 7 11 15 18 13 10 6

 

Методические рекомендации по выполнению контрольной работы №2 по дисциплине «Теория вероятностей и математическая статистика»

 

Задание №1. . В результате наблюдений некоторый признак (случайная величина) Х принял ряд значений: 12 9 11 11 9 14 13 13 10 10 10 12 9 11 11 11 12 10 13 11 11 12 11 12 14. Требуется:

1) составить дискретный вариационный ряд с соответствующими частотами и относительными частотами;

2) построить полигон относительных частот;

3) составить эмпирическую функцию распределения и построить ее график, построить кумулятивную кривую;

4) вычислить моду, медиану, выборочную среднюю, выборочные дисперсию и среднее квадратическое отклонение, коэффициент вариации;

5) найти несмещенные оценки математического ожидания, дисперсии и среднего квадратического отклонения генеральной совокупности;

6) предполагая, что случайная величина Х подчиняется нормальному закону распределения, построить доверительные интервалы для математического ожидания, дисперсии и среднего квадратического отклонения с заданной надежностью  и . Сделать вывод о зависимости ширины доверительного интервала от уровня надежности.

Р е ш е н и е. На основе данных сформируем вариационный ряд, для этого значения признака расположим в неубывающем порядке: 9; 9; 9; 10; 10; 10; 10; 11; 11; 11; 11; 11; 11; 11; 11; 12; 12; 12; 12; 12; 13; 13; 13; 14; 14.

1) Теперь зададим частотное распределение выборки. Так как требуется составить эмпирическую функцию распределения и построить графики, добавим в таблицу еще две строки:

 

xi ni wi wнакi xini

xi2ni

 

 

 

0

 

 

9

3

0,12

0,12

27

243

10

4

0,16

0,28

40

400

11

8

0,32

0,60

88

968

12

5

0,2

0,80

60

720

13

3

0,12

0,92

39

507

14

2

0,08

1

28

392

Сумма

25

1

 

282

3230

 

 

2) Построим полигон относительных частот, используя третий столбец:

 

 

3) Составим эмпирическую функцию распределения, пользуясь формулой (3.1) и четвертым столбцом таблицы:

 

 

Построим кумуляту (голубой цвет) и график функции (черная ступенчатая фигура) F *(x), используя четвертый столбец таблицы.

 

4) Мода равна 11, так как это значение встречается наиболее часто (соответствующая ему частота - наибольшая - равна 8): М0=11.

Так как число вариант нечетно (25), то медиана – значение признака, стоящее в середине вариационного ряда – х13:

По формуле (5) находим выборочную среднюю, используем сумму элементов пятого и второго столбцов:

По формулам (9) и (10) находим выборочные дисперсию (суммы шестого и второго столбцов и вычисленное выборочное среднее) и СКО:

Коэффициентвариации по формуле (16):

5) Несмещенной точечной оценкой математического ожидания ГС является выборочное среднее, равное 11,28, а дисперсии – исправленная выборочная дисперсия, которую вычислим , используя формулу (17):

6) Так как генеральная дисперсия неизвестна, то доверительный интервал для неизвестного математического ожидания построим по формуле (21):

Пользуясь таблицей квантилей распределения Стьюдента при доверительной вероятности g, равной 0,95 и 0,99 и , находим:

Определяем точность оценки:

Окончательно, доверительные интервалы имеют вид:

Полученные результаты можно оформить таблицей:

 

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

Введение

Теоретической основой МС является теория вероятностей. Чтобы качественно использовать теоретические положения теории вероятностей в МС вводят понятие признака – некоторой функции без фиксированной области определения. Например, в качестве признака Х можно рассматривать размер заработной платы, значения которого могут определяться и на множестве работников бюджетной сферы, и на множестве менеджеров высшего звена компаний, как в пределах некоторого региона, так и в масштабах всей страны. Фиксированная область определения, связанная с признаком, называется статистической совокупностью.

Генеральная совокупность (ГС) - множество всех мыслимых объектов, однородных относительно некоторых признаков, доступных для наблюдения и количественного измерения. Число всех элементов ГС называется ее объемом (обозначается N). С математической точки зрения ГС является случайной величиной.

Характеристики признака в ГС называют генеральными характеристиками (это генеральное среднее, генеральная дисперсия и др.), они не являются случайными величинами – это числа.

Прямое изучение ГС очень трудоёмко, да и не всегда возможно или оправдано. ГС изучаются на основе выборочных совокупностей или выборок, которые должны достаточно хорошо отражать пропорции ГС. Такая выборка называется репрезентативной. Репрезентативность выборки обеспечивается путем случайного отбора и достаточным объемом выборки.

Выборка - часть случайно отобранных для изучения элементов ГС. Объем выборки обычно обозначается n.

По способу отбора элементов различают два типа случайных выборок: повторная и бесповторная (схемы возвращенного и невозвращенного шара), поэтому бесповторная выборка состоит из различных объектов.

Эмпирические характеристики признака в выборочной совокупности называются выборочными характеристиками признака Х. Понятно, что выборочные характеристики являются случайными величинами (это выборочное среднее, выборочная дисперсия и т.д.).

Закон больших чисел является теоретической основой для применения выборочного метода: при неограниченном увеличении объёма выборки её характеристики сколь угодно близко приближаются к характеристикам ГС.

Одна из задач МС состоит в том, чтобы на основе анализа выборочной совокупности установить неизвестное распределение вероятностей ГС или объективно оценить параметры ее распределения.

Вариационные ряды

Пусть, из ГС извлечена выборка объема n, измерена некоторая величина Х, в результате чего получено множество значений  (некоторые значения могут повторяться неоднократно). Это множество называется простым статистическим рядом.

Набор элементов выборки, расположенных по неубыванию или по невозрастанию, называется вариационнымрядом. Различные значения выборки называют вариантами.

Его записывают: , где .

Размахом выборки называется разность между наибольшей и наименьшей вариантой, т.е. длина интервала, которому принадлежат все варианты выборки:

Число, показывающее, сколько раз вариант xi встречается в ряду, называются его частотой и обозначаются n i, а ее отношение к объему выборки n i/n=ωiотносительной частотой или частостью.

                          (1)

Перечень вариант и соответствующих им частот или частостей называется статистическим (эмпирическим) распределением выборки или дискретным вариационным рядом, а частоты и частости – весами.

 

Статистическое распределение частот

Таблица 1

xi x1 x2 xk 𝛴
ni n1 n2 nk n

Общий вид статистического распределения частостей

Таблица 2

xi x1 x2 xk 𝛴
ωi=n i/n ω1 ω2   ωk 1

 

Графическим изображением дискретного вариационного ряда является полигон частот (или полигон относительных частот) - ломаная линия, отрезки которой соединяют точки с координатами  или  соответственно,

Накопленная частота показывает, сколько было наблюдений со значением признака, меньшим или равным данного значения  Накопленную частоту будем обозначать . Накопленная относительная частота -

Эмпирической функцией распределения F *(x) называется функция, определяющая для каждого значения х относительную частоту того, что признак Х принимает значение меньше заданного.

Из определения следует, что для каждого значения переменной  эмпирическая функция F *(x) представляет собой :

                       (2)

Эмпирическая функция распределения F *(x) является кусочно-постоянной функцией. Точки разрыва - варианты, а скачки - их частости.

 

                          (3)

 

Функция F *(x) обладает всеми свойствами теоретической функции распределения F(x). Эмпирическая функция F *(x) даёт приближенное представление о теоретической функции распределения F(x) ГС.

Графическим изображением эмпирической функции распределения, кроме её графика, служит кумулята - кривая накопленных частот (или накопленных частостей). Для дискретного вариационного ряда кумулятивная кривая представляет собой ломаную линию, соединяющую точки  или точки ,

Пример 1. Имеются данные об уровне квалификации 24 служащих фирмы: 4; 3; 6; 4; 4; 2; 3; 5; 4; 4; 5; 2; 3; 4; 4; 5; 2; 3; 6; 5; 4; 2; 4; 3. Составить вариационный ряд и статистическое распределение выборки, построить полигон частот и относительных частот, составить эмпирическую функцию распределения, построить ее график и кумулятивную кривую.

Р е ш е н и е. На основе данных сформируем вариационный ряд, для этого наблюдаемые значения признака расположим в неубывающем порядке:

2; 2; 2; 2; 3; 3; 3; 3; 3; 4; 4; 4; 4; 4; 4; 4; 4; 4; 5; 5; 5; 5; 6; 6.

Теперь зададим частотное распределение выборки. Так как требуется составить эмпирическую функцию распределения и построить графики, добавим в таблицу еще две строки:

 

Таблица 3

xi 2 3 4 5 6 𝛴
ni 4 5 9 4 2 24
ωi=n i/n 4/24 5/24 9/24 4/24 2/24 1
4/24 9/24 18/24 22/24 1  

 

Построим полигоны частот и частостей, используя вторую и третью строки таблицы 3:

 

 

Составим эмпирическую функцию распределения, пользуясь формулой (3.1) и последней строкой таблицы.

 

 

Построим кумуляту и график функции F *(x), используя последнюю строку таблицы 3.

 

 

Самостоятельная работа №1.

Задача 1.1. Из генеральной совокупности извлечена выборка объема n=120. Полигон частот изображен на рисунке. Найти относительную частоту варианты  в этой выборке.

Задача 1.2. Из генеральной совокупности извлечена выборка объема n=100. Полигон относительных частот изображен на рисунке. Найти частоту варианты  в этой выборке.

 


Поделиться:



Последнее изменение этой страницы: 2019-04-21; Просмотров: 958; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.379 с.)
Главная | Случайная страница | Обратная связь