ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ И ВЫБОРКА ИЗ НЕЕ. РЕПРЕЗЕНТАТИВНОСТЬ ВЫБОРКИ

⇐ ПредыдущаяСтр 2 из 3Следующая ⇒

Генеральная совокупность – это совокупность всех мысленных наблюдений (или всех мыслимо возможных объектов), которые могут быть проведены при данном реальном комплексе условий.

Понятие ГС – это абстрактное математическое понятие. ГС может быть конечной или бесконечной.

Выборка из данной ГС представляет собой результат ограниченного ряда наблюдений интересующего нас показателя (признака, переменной). ГС всегда больше, чем выборка. В статистике выборка обозначается х1, х2, …, хn количество наблюдений n.

Количество наблюдений – «n»- называется объемом выборки.

Сущность статистических методов – чтобы по некоторой части ГС, т.е. по выборке, выносить суждения о свойствах ГС в целом.

Одним из важнейших вопросов, от успешного решения которого зависит достоверность выводов, получаемых в результате статистической обработки данных, является вопрос репрезентативности выборки, т.е. вопрос полноты и адекватности представления выборкой интересующих нас свойств ГС. Одним из важных путей повышения степени репрезентативности выборки является достижение полностью случайного отбора объектов из ГС.

ОСНОВНЫЕ СПОСОБЫ ОРГАНИЗАЦИИ ВЫБОРКИ

При отборе объектов из ГС для получения выборки используется ряд различных способов:

- простой случайный отбор – это способ получения n объектов выборки из конечной генеральной совокупности, состоящей из N объектов, при которой каждая выборка имеет одинаковый шанс быть отобранной (1000 детей - N, а нужно 100 -n). На практике для реализации простого случайного отбора объекты генеральной совокупности нумеруются от единицы до N (каждой единице – свой номер). Затем используют таблицу случайных чисел (или корзину с шарами) и отбирают последовательно друг за другом n объекты для выборки. Полученная таким образом выборка – случайная.

- простой отбор с помощью регулярной, но не существенной для изучаемого явления процедуры (например, по первой букве фамилии). - стратифицированный (расслоенный). В этом случае генеральная совокупность объема N разделяется на непересекающиеся подсовокупности (страты).

N1 … N k n1 + n2 + …+ nk = n

Например, студенты – студенты 1 курса, 2 курса и т.д. Один и тот же человек не может попасть в другие совокупности. Из каждого слоя извлекается простая случайная выборка соответственно V. Стратифицированный отбор применяется, когда объекты внутри каждого слоя являются однородными (по возрасту; один слой - дети из полных семей, другой слой - дети из неполных семей).

- серийный отбор используется тогда, когда удобнее использовать не отдельные элементы генеральной совокупности, а целые блоки или серии таких элементов (например, исследуются семьи в одном доме или все дома на одной стороне улицы). Такой способ отбора называют гнездовым.

- комбинированный (ступенчатый). Он объединяет в себя сразу несколько из вышеперечисленных способов отбора, которые составляют различные ступени выборочного исследования.

- последовательный (активный). Этот способ отбора используется при анализе физико-химических и технологических процессов. Он называется активным, т.к. мы можем влиять на некоторые переменные.

ШКАЛЫ ИЗМЕРЕНИЙ

Данные эксперимента представляют собой результат измерения (наблюдения, регистрации, описания) свойств исследуемых объектов. Измерение – приписывание значений признакам объекта в соответствии с определенными правилами или шкалой измерения. В статистике наиболее часто употребляются следующие шкалы измерения:

- шкала наименований (номинальная, номинативная, шкала классификации). Она используется для отнесения объектов к определенному классу. Объекты, отнесенные к одному и тому же классу, получают одни и те же обозначения. Если количество классов шкалы известно, а также известны правила отнесения к ним объекта, то такая шкала называется категоризованной (примером такой шкалы является пол: м и ж). Простейшим случаем номинальной шкалы является дихотомическая шкала, которая состоит только из двух классов (курит – не курит). К сожалению, для номинальной шкалы арифметические операции не имеют смысла. После того, как с помощью номинальной шкалы мы классифицировали исходные объекты на классы, мы можем перейти от наименований к числам, подсчитав количество наблюдений в каждом из классов. Такая величина называется частотой. Можно работать с помощью математических методов.

- порядковая шкала (ранговая, ординальная). Эта шкала используется для отнесения объектов к определенному классу в соответствии со степенью выраженности, заданности свойства. В порядковой шкале должно быть не менее 3-х классов. Например, 1 класс – подходит для занятия вакантной должности; 2 класс – подходит с оговорками; 3 класс – не подходит. В порядковой шкале мы можем только сказать «больше», «меньше». Но не можем сказать «на сколько». В нашем примере 1 и 2 классы могут быть ближе друг к другу, чем 2 и 3 классы. От класса мы можем перейти к числам с помощью ранжирования. Обычно принято считать, что низший класс получает ранг 2 и т.д. Чем больше классов в шкале, тем больше у нас возможности для математической обработки полученных данных. В общих случаях числа в порядковой шкале не отражают количества свойства, которыми обладают исследуемые объекты. Поэтому для этой шкалы арифметические операции также чаще всего не имеют смысла. Примерами порядковой шкалы являются оценки на экзамене. Основные психологические исследования обычно используют порядковую шкалу, при этом необходимо стараться, чтобы в порядковой шкале было достаточное количество классов. Фактически в качестве единицы измерения в порядковой шкале используется расстояние в1 ранг, но при этом расстояние между соседними рангами может быть различным.

- количественные шкалы. Таких шкал имеется 2 типа: интервальная и шкала отношений. Интервальная шкала позволяет классифицировать и упорядочивать объекты, а также количественно описать различия между свойствами объектов. Для задания такой шкалы устанавливают единицу измерения и произвольную точку отсчета. Примером является календарное время. Для этой шкалы арифметические операции имеют смысл. Шкала отношений отличается от интервальной шкалы только тем, что в ней задано абсолютное начало отсчета. Например, рост в см – абсолютное начало 0. В шкале отношений мы можем определить не только на сколько одно измерение превосходит другое, но и во сколько раз.

-5 С ------------0------------- +5 С

ОК --------------------------------------

Считается, что в психологии примером шкалы отношений являются шкала порога абсолютной чувствительности. Примечание: данные, полученные в одной шкале, можно перевести в другую шкалу только в следующих направлениях: 3 2 1. От количественной к порядковой к номинальной (много курит, немного курит, не курит). В обратном направлении перевод информации не возможен. По мере возможности нужно стараться измерять в количественной шкале, т.к. в этом случае мы сможем перейти к любой из рассматриваемых выше шкал. Однако при этом происходит частичная потеря информации. Перевод исходной выборки из количественной шкалы называется ранжированием. При ранжировании каждому элементу выборки приписывается ранг, который соответствует месту этого элемента в упорядоченной выборке. Наиболее часто выборку ранжируют по возрастанию, т.е. ранг, равный 1, получает наименьший элемент выборки. В результате ранжирования «новая» выборка содержит значения от 1 до n. Пример ранжирования выборки. Пусть в ходе эксперимента измерялся коэффициент IQ и получена следующая выборка:

112, 108, 84, 96, 75, 124, 106, 89. n=8

7 6 2 4 1 8 5 3

Проранжировать полученную выборку (не путать с упорядочиванием). 75, 84, 89, 96, 106, 108, 112, 124.

Иногда в выборке встречаются несколько одинаковых значений. Такая ситуация называется проблемой совпадающих рангов. В этом случае каждому из совпадающих значений присваивается ранг, равный среднему значению рангов, если бы эти элементы не совпадали.

Пример: 108, 96, 96, 74, 84, 108, 104, 108, 103. (3+4): 2=3, 5

8 3, 5 3, 5 1 2 8 6 8 5 (7+8+9): 3=8

Пример перевода исходной выборки из количественной шкалы в номинальную. Пусть в ходе эксперимента измеряется уровень тревожности в диапазоне от 0 до 20. Необходимо перевести полученные данные в номинальную шкалу, содержащую 3 класса: высший (15-20); средний (6-14); низший (0-5). Исходная выборка имеет вид:

Количественная 14, 6, 8, 4, 18, 12, 10, 9.

Номинальная с с с н в с с с.

Переводя, мы теряем информацию. в-1, с-6, н-1.

ТАБУЛИРОВАНИЕ ДАННЫХ

Для анализа и интерпретации исходных количественных данных их необходимо обобщить. Чаще всего 1 этапом представления исходных данных является упорядочивание их по величине (по возрастанию или по убыванию). Если исходная выборка упорядочена по возрастанию, т.е. сначала расположено наблюдение, наименьшее по величине, затем 2 по величине и т.д., то такая выборка называется вариационным рядом и обозначается следующим образом: х(1), х(2), …, х(n) - упорядочены, х(1) < х(2) < … < х(n) (некоторые элементы 84, 84, 106, 106 могут совпадать); х1, х2 - не упорядочены, в произвольном порядке.

Когда исходная выборка имеет достаточно большой объем, то используют табулирование данных – т.е. представляют исходную выборку в виде таблицы соответствующего вида. Табулирование обычно осуществляется в 4 этапа:

1 этап – определение размаха выборки. Для этого из максимального элемента выборки вычитают минимальный.

R= хmax – xmin = x(n) - x(1), где R – размах выборки.

2 этап – определение ширины интервала, группирование данных. Прежде чем искать ширину интервала, необходимо определиться с количеством интервалов в группировании. Очень небольшое количество интервалов может слишком упростить и сгладить общую тенденцию, а слишком большое количество интервалов может привести к излишней детализации рассматриваемого явления. Рекомендация: количество интервалов выбирается таким образом, чтобы в каждый интервал попадало в среднем 5-6 элементов выборки. Для этого объем выборки делим на 5 и на 6, в результате получаем два числа.

k1=n/5, k2 = n/6, где n - объем выборки. После этого в качестве требуемого количества интервала выбирается целое число к, находящееся между k1 и k2. Пример: n=32, k1=32/5=6, 4; k2 =32/6=5, 3; отсюда получается в качестве к будет 6 (к=6 или к=5). Тогда ширина интервала группирования получается путем деления размаха выборки на количество интервалов.

h= R/k, где h – ширина.

Т.к. в большинстве случаев наши исходные данные являются целыми числами, то ширину интервала можно также округлить до ближайшего целого числа. h=50/6=8, 3=8

3 этап – определение границ интервалов группирования данных. При этом нужно обращать внимание на то, чтобы левая граница первого интервала не оказалась справа от наименьшего значения на числовой оси.

( * * * * * * * )

xmin xmax

( )( )( )( )( )( )( )

х min=42, левая граница не может быть 44, а может 40, т.е. левая граница первого интервала не может быть больше наименьшего значения. Каждая последующая граница получается путем прибавления ширины интервала к предыдущей границе.

h=8, x min =42. Левая граница 40; 40 – 48; 48 – 56.

4 этап – непосредственно само табулирование данных. На этом этапе мы подсчитываем, сколько элементов выборки попало в каждый интервал. Количество наблюдений, попавших в интервал, называется частотой. Результатом табулирования данных является таблица, состоящая из двух столбцов, первый из которых содержит границы интервала, второй – частоты. Пример: в результате проведения контрольной работы по чтению в классе из 38 учеников были получены следующие результаты: 90, 66, 106, 84, 105, 83, 104, 82, 97, 97, 59, 95, 78, 70, 47, 95. 100, 69, 44, 80, 75, 75, 51, 109, 89, 58, 59, 72, 74, 75, 81, 71, 68, 112, 62, 91, 93, 84. Протабулировать полученные исходные данные. xmin=44; xmax=112; R=112-44=68; n=38; k1=38/5=7, 5; k2=38/6=6, 3; k=7. Находим ширину: h=R/k; h= 68/7=9, 7=10.

Перед непосредственным подсчетом частот мы определяем для себя, в какой интервал будем включать значения, попадающие точно на границу интервала (левую и правую). Для контроля правильности вычисления нужно сложить все полученные частоты, если мы все сделали правильно, то сумма частот должна равняться количеству наблюдений в выборке.

Иногда выборка может быть представлена в виде частотного ряда. Частотным рядом называется таблица следующего вида:

zi z1 z2... zk

ni n1 n2... nk

z1, z2, …, zn - различные значения элементов исходной выборки.

x1, х2, …, хn

k < n

n1, n2, …, nk – частота встречаемости того или иного различного значения в выборке.

Имеет смысл задача построения частотного ряда, если в исходной выборке встречается много одинаковых значений. Пример: на занятиях по статистике проводится эксперимент по регистрации номера месяца рождения каждого из студентов. Опрос проводится по списку. Представить полученную выборку в виде вариационного и частотного рядов, а также определить размах выборки.

4, 12, 12, 6, 5, 1, 8, 6, 12, 8, 7, 1, 10, 6, 10, 8, 12, 12, 10, 1, 11, 12, 2, 4, 10, 12. n=26;

в виде вариационного ряда (по возрастанию): 1, 1, 1, 2, 4, 4, 5, 6, 6, 6, 7, 8, 8, 8, 10, 10, 10, 11, 12, 12, 12, 12, 12, 12, 12.

n=26 (общее количество); к=10.

Для контроля правильности вычислений можно просуммировать частоты n1+n2+…+nk=n

Находим размах выборки: R=12-1=11; max –12; min –1; меньше 11 может быть, 1/2 - 26, 1 – 50.

КВАНТИЛЬ

Квантиль – это точка на числовой прямой, которая делит совокупность исходных наблюдений на две части с известными пропорциями в каждой из частей. Показатель одной из пропорций обычно записывается при обозначении квантили в качестве индекса справа внизу и называется уровнем или порядком. В общем виде записывается следующим образом:

Кр читается квантиль уровня (порядка); показатель от 0 до 1.

Например, К0, 2. Пусть имеется квантиль уровня 0, 2. Характеризует левую часть пропорции исходных наблюдений.

Квантиль – это общее понятие. Частными случаями квантиля являются: квартили; децили; процентили. Квартиль делит исходную совокупность на две части, каждая из которых пропорциональна одной или нескольким четвертым частям. Обычно рассматривают 3 квартиля: Q1, Q2, Q3.

Дециль – делит исходную совокупность наблюдений на 2 части, каждая из которых пропорциональна одной или нескольким десятым частям. Обычно рассматривают 9 децилей: D1, D2, D3, …, D9.

Процентиль – делит исходную совокупность наблюдений на 2 части, каждая из которых пропорциональна одной или нескольким сотым частям. Обычно рассматривают 99 процентилей: Р1, Р2. …, Р98, Р99.

Иногда некоторая точка на числовой оси может одновременно являться и квантилью, и децилью, и процентилью. Например, Q2=D5=Р50=К0, 5.

Q3=децилью не может быть=Р75=К0, 75. ¾ =75/100

Главное – сами числа получить по их выборке.

⇐ Предыдущая 123 Следующая ⇒