Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Определение дисперсии методом моментов



Преобразованием приведенных выше логических формул определе­ния дисперсии могут быть получены ее новые формулы для расчета, например, методом моментов, которым иногда значение дисперсии по­лучается быстрее.

= = =

Окончательно записываем, что дисперсия методом моментов определяется по формуле

Д = , (1.32)

где – средняя квадратов статистических величин; – квадрат их средней величины.

Эти параметры нередко имеют и другие названия. Вычитаемое назы­вают начальным моментом первого порядка, уменьшаемое – начальным моментом второго порядка, а сама дисперсия при этом называется цен­тральным моментом второго порядка.

Для иллюстрации пользования формулами дисперсии рассмотрим простейший пример, приняв абстрактно Х1 = 2, Х2 = 4, Х3 = 6, для которых среднее значение, очевидно, равняется = 4. Тогда дисперсия простая по логической формуле (1.24) будет равна

Д3 = ((2-4)2 + (4-4)2 + (6-4)2)/3 = 8/3 = 2, 67

Применив формулу моментов (1.32), получим тот же результат

Д3 =(22 + 42 + 6 2 )/3 – 42 = 56/3 – 16 = 2, 67

В данном примере быстрота определения дисперсии методом мо­ментов не достаточно ощутима, но она проявляется очень заметно при большом количестве статистических данных.

19. Свойства средней арифметической и дисперсии

В статистических расчетах эти характеристики статистической сово­купности зачастую применяются во взаимодействии. При этом с целью приведения их к удобному для анализа виду при громоздких значениях статистических величин используют следующие свойства.

1. Если каждую статистическую величину изменить на одно число (прибавить или отнять), то средняя арифметическая изменится на это число, а дисперсия при этом не изменится.

2. Если каждую статистическую величину изменить в одинаковое число раз (умножить или разделить), то средняя арифметическая изме­нится во столько же раз, а дисперсия изменится в квадрат таких раз.

Доказать эти свойства можно путем математических преобразований соответствующих формул, но гораздо проще доказательство получается с помощью следующего численного примера.

Принимая предыдущие три статистические величины с их значения­ми 2, 4, и 6, сначала прибавим к каждой из них 5, а потом умножим ка­ждую из них на 5. Тогда получим измененные значения статистических величин, представленные матрицей

X1=2; X1’=2+5=7; X1’’=2*5=10.

X2=4; X2’=4+5=9; X2’’=4*5=10.

X3=6; X3’=6+5=11; X3’’=6*5=30.

= 4; ’=9; ’’=20.

Д=2, 67; Д’=2, 67; Д’’=66, 67.

В этой матрице значения средних арифметических очевидны, а пер­воначальное значение дисперсии было найдено в предыдущем примере. Расчет других ее значений приведен ниже по логической формуле (1.24)

Д’= ((7-9)2 + (9-9)2 + (11-9)2)/3 = 2, 67

Д’’= ((10-20)2 + (20-20)2 + (30-20)2)/3 = 66, 67

Отмечаем, что отношение 66, 67/2, 67 дает ровно 25 или 52. То есть при увеличении каждой статистической величины в 5 раз дисперсия увеличилась в 25 раз. Аналогичные численные доказательства можно выполнить и в случаях противоположного изменения статистических величин.

Понятие и отбор единиц

Выборочный метод используется, когда применение сплошного на­блюдения физически невозможно из-за огромного массива данных или экономически нецелесообразно. Физическая невозможность имеет ме­сто, например, при изучении пассажиропотоков, рыночных цен, семей­ных бюджетов. Экономическая нецелесообразность имеет место при оценке качества товаров, связанной с их уничтожением. Например, де­густация, испытание кирпичей на прочность и т.п. Выборочное наблю­дение используется также для проверки результатов сплошного.

Статистические величины, отобранные для наблюдения, составляют выборочную совокупность или выборку, а весьих массив - генеральную совокупность. При этом число величин в выборке обозначают п, во всей генеральной совокупности — как обычно N. Отношение n/N называется относительный размер или частость выборки, измеряемая в процентах.

Качество результатов выборочного наблюдения зависит от репре­зентативности выборки, т.е. от того, насколько она представительна в генеральной совокупности. Для обеспечения репрезентативности вы­борки надо соблюдать принцип случайности отбора статистических величин, который реализуется разными способами.

1. Собственно случайный отбор или «метод лото», когда статисти­ческим величинам присваиваются порядковые номера, заносимые на определенные предметы (бумажки, фишки, кубики, бочонки, шары), которые затем перемешиваются в некоторой емкости (шапка, мешок, ящик, барабан) и выбираются наугад. Этот способ можно осуществить также с помощью математических таблиц случайных чисел.

2. Механический отбор, согласно которому отбирается каждая (N/п)-я величина генеральной совокупности. Так, если она содержит 100000 величин, а требуется выбрать 1000, то в выборку попадет каждая 100000 / 1000 = 100-я величина. Причем, если они не ранжированы, то первая выбирается наугад из первой сотни, а номера других будут на сотню больше. Например, если первой оказалась статистическая вели­чина № 19, то следующей должна быть № 119, затем № 219, затем № 319 и т. д. Если статистические величины ранжированы, то первой выбирается № 50, затем № 150, затем № 250 и так далее.

3. Отбор величин из неоднородного массива данных ведется стратифицированным (расслоенным) способом, когда генеральная совокуп­ность предварительно разбивается на однородные группы, к которым применяется случайный или механический отбор.

4. Особый способ составления выборки представляет собой серий­ный или гнездовой отбор, при котором случайно или механически вы­бирают не отдельные величины, а их серии или гнезда, внутри которых ведут сплошное наблюдение.

Качество выборочных наблюдений зависит и от типа выборки: по­вторная или бесповторная. В первом случае попавшие в выборку ста­тистические величины или их серии после использования возвращаются в генеральную совокупность, имея шанс попасть в новую выборку. При этом у всех величин генеральной совокупности одинаковая вероятность включения в выборочную совокупность.

Бесповторный отбор означает, что попавшие в выборку статистиче­ские величины или их серии после использования не возвращаются в генеральную совокупность, а потому для остальных величин последней повышается вероятность попадания в следующую выборку.

Бесповторный отбор дает более точные результаты, поэтому приме­няется чаще. Но есть ситуации, когда его применить нельзя (изучение пассажиропотоков, потребительского спроса и т.п.) и тогда ведется по­вторный отбор.

Средняя ошибка выборки

Выборочную совокупность можно сформировать по количественно­му признаку статистических величин, а также по альтернативному или атрибутивному. В первом случае обобщающей характеристикой выборки служит выборочная средняя величина, обозначаемая , а во втором — выборочная доля величин, обозначаемая w. В генеральной совокуп­ности соответственно: генеральная средняя и генеральная доля р.

Разности и W — р называются ошибкой выборки, которая делится на ошибку регистрации и ошибку репрезентативности. Первая часть ошибки выборки возникает из-за неправильных или неточных сведений по причинам непонимания существа вопроса, невнимательно­сти регистратора при заполнении анкет, формуляров и т.п. Она доста­точно легко обнаруживается и устраняется. Вторая часть ошибки возни­кает из-за постоянного или спонтанного несоблюдения принципа слу­чайности отбора. Ее трудно обнаружить и устранить, она гораздо боль­ше первой и потому ей уделяется основное внимание.

Величина ошибки выборки зависит от структуры последней. Напри­мер, если при определении среднего балла успеваемости студентов фа­культета в одну выборку включить больше отличников, а в другую - больше неудачников, то выборочные средние баллы и ошибки выборки будут разными.

Поэтому в статистике определяется средняя ошибка повторной и бесповторной выборки в виде ее удельного среднего квадратического отклонения по формулам

= - повторная; (1.35)

= - бесповторная; (1.36)

где Дв — выборочная дисперсия, определяемая при количественном признаке статистических величин по обычным формулам из гл.2.

При альтернативном или атрибутивном признаке выборочная дис­персия определяется по формуле

Дв = w(1-w).(1.37)

Из формул (1.35) и (1.36) видно, что средняя ошибка меньше у бес­повторной выборки, что и обусловливает ее более широкое применение.

Предельная ошибка выборки

Учитывая, что на основе выборочного обследования нельзя точно оценить изучаемый параметр (например, среднее значение) генеральной совокупности, необходимо найти пределы, в которых он находится. В конкретной выборке разность может быть больше, меньше или равна . Каждое из отклонений от имеет определенную вероятность. При выборочном обследовании реальное значение в генеральной совокупности неизвестно. Зная среднюю ошибку выборки, с определенной вероятностью можно оценить отклонение выборочной средней от генеральной и установить пределы, в которых находится изучаемый параметр (в данном случае среднее значение) в генеральной совокупности. Отклонение выборочной характеристики от генеральной называется предельной ошибкой выборки . Она определяется в долях средней ошибки с заданной вероятностью, т.е.

= t , (1.38)

где tкоэффициент доверия, зависящий от вероятности, с которой определяется предельная ошибка выборки.

Вероятность появления определенной ошибки выборки находят с помощью теорем теории вероятностей. Согласно теореме П. Л. Чебышёва, при достаточно большом объеме выборки и ограниченной дисперсии генеральной совокупности вероятность того, что разность между выборочной средней и генеральной средней будет сколь угодно мала, близка к единице:

при .

А. М. Ляпунов доказал, что независимо от характера распределения генеральной совокупности при увеличении объема выборки распределение вероятностей появления того или иного значения выборочной средней приближается к нормальному распределению. Это так называемая центральная предельная теорема. Следовательно, вероятность отклонения выборочной средней от генеральной средней, т.е. вероятность появления заданной предельной ошибки, также подчиняется указанному закону и может быть найдена как функция от t с помощью интеграла вероятностей Лапласа:

,

где – нормированное отклонение выборочной средней от генеральной средней.

Значения интеграла Лапласа для разных t рассчитаны и име­ются в специальных таблицах, из которых в статистике широко применяется сочетание:

Вероятность 0, 683 0, 866 0, 950 0, 954 0, 988 0, 990 0, 997 0, 999
t 1, 5 1, 96 2, 5 2, 58 3, 5

Задавшись конкретным уровнем вероятности, выбирают величину нормированного отклонения t и определяют предельную ошибку выбор­ки по формуле (1.38)

При этом чаще всего применяют = 0, 95 и t = 1, 96, т.е. считают, что с вероятностью 95% предельная ошибка выборки вдвое больше средней. Поэтому в статистике величина t иногда именуется коэффициентом кратности предельной ошибки относительно средней.

После исчисления предельной ошибки находят доверительный ин­тервал обобщающей характеристики генеральной совокупности. Такой интервал для генеральной средней величины имеет вид

( - ) ( + ), (1.39)

адля генеральной доли аналогично

(w- ) p (w + ).(1.40)

Следовательно, при выборочном наблюдении определяется не одно, точное значение обобщающей характеристики генеральной совокупно­сти, а лишь ее доверительный интервал с заданным уровнем вероятно­сти. И это серьезный недостаток выборочного метода статистики.


Поделиться:



Популярное:

Последнее изменение этой страницы: 2016-08-24; Просмотров: 1046; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.021 с.)
Главная | Случайная страница | Обратная связь