Группировка статистических данных

Стр 1 из 4Следующая ⇒

Группировка - это распределение единиц совокупности по группам в соответствии с группировочным признаком. Назначение группировки состоит в том, что этот метод обеспечивает обобщение данных, представление их в компактном, обозримом виде. На основе группировки рассчитываются сводные показатели по группам, появляется возможность их сравнения, изучения взаимосвязей между признаками.

Различия в целевом назначении группировки выражаются в существующей в нашей статистике классификации группировок: типологические, структурные, аналитические.

При осуществлении любой группировки решается вопрос об определении числа выделяемых групп. При группировке по количественному признаку вопрос о числе групп решается на основе выделения однородных, близких по значению признака единиц совокупности. Необходимо, чтобы каждая группа характеризовала существенные типы явления. Число единиц в выделенных группах должно быть достаточным, чтобы характеристики, рассчитанные для отдельных групп были статистически устойчивыми. Количество выделяемых групп зависит от вариации признака, числа наблюдений, а также от количества отдельных возможных значений признака, т.е. от числа вариант признака. При небольшом числе вариант признака, положенного в основу группировки, каждая варианта представляет отдельную группу.

Если число вариант велико, то значения группировочного признака для отдельных групп указываются в интервалах «от – до». Для этого всю область изменения признака разбивают на несколько интервалов и считают, сколько элементов попадает в отдельный интервал. Интервалы могут быть равными и неравными, открытыми и закрытыми. Группировку с неравными интервалами надо использовать, если размах вариации признака в совокупности велик, неравные интервалы применяются как прогрессивно возрастающие или убывающие. В этом случае границы каждого интервала устанавливаются исследователем. Однако необходимо учесть, что наличие равных интервалов технически значительно облегчает вычисление различных статистических характеристик.

Равные интервалы применяются в случаях, когда изменение признака внутри совокупности происходит равномерно. Расчет величины интервала при равных интервалах производится по формуле:

где D - величина отдельного интервала,

x_max - максимальное значение признака в исследуемой совокупности,

x_min - минимальное значение признака в исследуемой совокупности.

K - число групп,

Затем определяются границы каждого интервала:

для первого интервала: от x_min до x_min +D;

для второго интервала: от x_min + D до x_min + 2D;

........................................................................

для интервала: K от x_min + KD до x_max.

Типологическая группировка служит для выявления типов элементов явлений.

Структурная группировка служит для исследования совокупности по одному признаку.

После того, как в результате сводки статистические данные сгруппированы, они, как правило, представляются в виде таблицы. Макет таблицы для представления результатов структурной группировки может выглядеть следующим образом:

Наименование таблицы

Наименование группировочного признака, (единицы измерения)	Количество единиц совокупности в отдельной группе	В процентах к итогу

...	...	...
...	...	...
...	...	...
Итого	Общее число элементов совокупности

Здесь в первой графе указываются варианты (интервалы) значений признака для отдельных групп по возрастанию или убыванию.

Аналитические группировки служат для выявления аналитической зависимости между группировочными признаками. При построении аналитических группировок важно правильно определить признак-результат и признак-фактор.

Признак, влияние которого на другие признаки исследуется, называется признаком-фактором. Признак, испытывающий влияние факторного, называется признаком - результатом. Чтобы установить связь между признаками аналитическая группировка осуществляется по признаку-фактору. Затем по каждой группе отбираются соответствующие значения признака-результата и рассчитывается его среднее значение. Сопоставляя изменение средних значений признака-результата от группы к группе с изменениями признака-фактора можно сделать вывод о наличии или отсутствии взаимосвязи, а также о ее направлении. Различие групповых средних позволяет утверждать, что признаки взаимозависимы. Если изменение величины признака-фактора в определенном направлении вызывает изменение величины признака-результата в том же направлении, то связь прямая, в противном случае - связь обратная.

Макет таблицы для представления результатов аналитической группировки может выглядеть следующим образом:

Наименование таблицы

Наименование признака-фактора (единица измерения) Количество элементов совокупности в отдельной группе Среднее значение признака-результата (единица измерения)

... ... ...

... ... ...

... ... ...

Итого Общее число элементов совокупности -

Здесь в первой графе указываются варианты (интервалы) значений признака-фактора для отдельных групп по возрастанию или убыванию.

Проследить зависимость между факторами можно также на основе комбинационной группировки. Комбинационная группировка осуществляется одновременно по двум и более признакам, взятым в сочетании.

Макет комбинационной таблицы выглядит следующим образом:

Наименование таблицы

Группировка по признаку- Группировка по признаку-результату Всего

фактору

n₁₁ n₁₂ ... n_1M Sn_1j

n₂₁ n₂₂ ... n_2M Sn_2j

... ... ... ... ...

n_K1 n_K2 ... N_KM Sn_Mj

Всего Sn_i1 Sn_i2 ... Sn_iK Sn_ij

Здесь n_ij - частота совместного появления значения i признака-фактора (i = 1, 2,.., M) и значения j признака результата (j = 1, 2,..., K).

Если наибольшие частоты каждой строки и каждого столбца располагаются вдоль диагонали таблицы, идущей от левого верхнего угла таблицы к правому нижнему, то можно сделать вывод, что связь между признаками является прямой и близкой к линейной.

Если наибольшие частоты располагаются вдоль диагонали от правого верхнего угла к нижнему левому, то связь -- обратная и близкая к линейной.

Если частоты во всех клетках таблицы примерно одинаковы, то связи между признаками нет.

Контрольное задание №1

На основе данных, приведенных в Приложении 1 и соответствующих Вашему варианту (таблица 1), выполнить:

1. Структурную равноинтервальную группировку по обоим признакам. Если вариация группировочного признака значительна и его значение для отдельных групп необходимо представить в виде интервалов, то при построении группировки по признаку № 1 принять число групп равным 7, а по признаку № 2 - 8. Результаты представить в таблице, сделать выводы.

2. Аналитическую группировку, для этого определить признак-результат и признак-фактор, обосновав их выбор. При построении аналитической группировки использовать равнонаполненную группировку по признаку-фактору (в каждой группе приблизительно одинаковое количество наблюдений). Результаты группировки представить в таблице. Сделать выводы о наличии и направлении взаимосвязи между признаками.

3. Комбинационную группировку по признаку-фактору и признаку-результату. Сделать выводы.

Таблица данных для формирования статистической совокупности

Таблица 1

Последние две цифры № зачетной книжки Номер начального наблюдения Номер конечного наблюдения Номера признаков из приложения 1 Последние две цифры № зачетной книжки Номер начального наблюдения Номер конечного наблюдения Номера признаков из приложения 1

1, 2 1, 3

3, 4 4, 5

1, 3 1, 4

4, 5 2, 5

1, 4 1, 5

2, 5 2, 3

1, 5 1, 2

2, 3 3, 4

1, 2 1, 3

3, 4 4, 5

1, 3 1, 4

4, 5 2, 5

1, 4 1, 5

2, 5 2, 3

1, 5 1, 2

Окончание таблицы 1

2, 3 3, 4

1, 2 1, 3

3, 4 4, 5

1, 3 1, 4

4, 5 2, 5

1, 4 1, 5

2, 5 2, 3

1, 5 1, 2

2, 3 3, 4

1, 2 1, 3

3, 4 4, 5

1, 3 1, 4

4, 5 2, 5

1, 4 1, 5

2, 5 2, 3

1, 5 1, 2

2, 3 3, 4

1, 2 1, 3

3, 4 4, 5

1, 3 1, 4

4, 5 2, 5

1, 4 1, 5

2, 5 2, 3

1, 5 1, 2

2, 3 3, 4

1, 2 1, 3

3, 4 4, 5

1, 3 1, 4

4, 5 2, 5

1, 4 1, 5

2, 5 2, 3

1, 5 1, 2

2, 3 3, 4

1, 2 1, 3

3, 4 4, 5

Методические указания к выполнению задания №2

Обощающие характеристики совокупностей

Анализ статистических совокупностей включает в себя: построение рядов распределения; графическое представление распределения; определение характеристик центра распределения, показателей вариации.

Рядами распределения называют числовые ряды, характеризующие структуру совокупности по некоторому признаку. Ряд распределения может быть получен в результате структурной группировки. Ряд распределения, образованный по количественному признаку (он называется вариационным рядом), может быть дискретным, если значения признака выражены целыми числами и каждая варианта представлена в вариационном ряде отдельной группой, или интервальным (непрерывным), если значения признака выражены вещественными числами или число вариант признака достаточно велико.

Ряд распределения состоит из следующих элементов:

x_i - варианта - отдельное, возможное значение признака i=1, 2,..., K, где K - число значений признака;

N_i - частоты - численность отдельных групп соответствующих значений признаков;

N - объём совокупности - общее число элементов совокупности;

q_i - частость - доля отдельных групп во всей совокупности;

D_i - величина интервала;

- абсолютная плотность распределения;

- относительная плотность распределения.

Полученный вариационный ряд оформляется в виде таблицы, где в первой графе указываются варианты (интервалы) значений признака, а в следующих графах частота, частость, или если необходимо абсолютная или относительная плотность распределения.

Ряд распределения по частоте (частости) в целом характеризует структуру совокупности по данному признаку. Однако для описания распределения совокупность могут использоваться и кумулятивные ряды, т.е. ряды накопленных частот (или частостей), которые иногда имеют даже некоторые преимущества.

Накопленная частота (частость) данного значения признака - это число (доля) элементов совокупности, индивидуальные значения признака которых не превышают данного.

Обозначим: F(x) - накопленная частота для данного значения x;

G(x) - накопленная частость для данного значения x.

Эти характеристики обладают следующими свойствами:

0 £ F(x) £ N; 0 £ G(x) £ 1

Рассмотрим интервалы [x_i -x_i₊₁], i=1, 2,..., K:

Первым этапом изучения вариационного ряда является его графическое изображение. Способы построения графиков для разных видов рядов распределения различны.

Изображением дискретного ряда распределения является полигон. В системе координат по оси абсцисс откладываются варианты (x_i), по оси ординат - частоты (частости), затем отмечают точки с координатами (x_i; N_i), которые последовательно соединяются отрезками прямой.

Интервальный ряд распределения изображается графически в виде гистограммы. При её построении на оси абсцисс откладывают интервалы ряда. Над осью абсцисс строятся прямоугольники, основанием которых является интервал, а высота - соответствующая этому интервалу абсолютная плотность распределения (или частота, частость - если ряд равноинтервальный).

Изображением ряда накопленных частот служит кумулята. Накопленные частоты наносятся в системе координат в виде ординат для границ интервалов; соединяя нанесенные точки отрезками прямых, получаем кумуляту.

Вторым этапом изучения вариационного ряда является определение характеристик центра распределения. Характеристика центра распределения представляет собой такую величину,

которая в некотором отношении характерна для данного распределения и является его центральной величиной.

К характеристикам центра распределения относятся: средняя арифметическая, медиана, мода.

Для сгруппированных данных, представленных в вариационном ряду средняя арифметическая (`x) определяется как:

т.е. в качестве веса при усреднении берётся частота N_i, соответствующая групповым значениям x_i. Если ряд дискретный, то каждое значение признака представлено. Если же ряд интервальный, то его нужно превратить в условно дискретный: в качестве группового значения x_i для каждого интервала вычисляется его середина.

Медиана (Me[x]) - это такое значение признака, которое делит объём совокупности пополам в том смысле, что число элементов совокупности с индивидуальными значениями признака, меньшими медианы, равна числу элементов совокупности с индивидуальными значениями больше медианы.

Численное значение медианы можно определить по ряду накопленных частот. Накопленная частота для Me[x] равна половине объёма совокупности ( F(Me[x]) = N/2 ); имея ряд накопленных частот, можно вычислить, при каком значении признака накопленная частота равна половине объёма совокупности. Для интервального ряда в этом случае определяется только интервал в котором будет находиться Me[x], само значение приближённо можно определить как:

где x₀ - начало интервала, содержащего медиану;

D_Me - величина интервала, содержащего медиану;

F(x₀) - накопленная частота на начало интервала, содержащего медиану;

N - объём совокупности;

N_Me - частота того интервала, в котором расположена медиана.

Квартили (Q₁, Q₂, Q₃) – значения признака, делящие упорядоченную по значению признака совокупность на 4 равные части. 1-ая квартиль (Q₁) определяет такое значение признака, что ¼ единиц совокупности имеют значения признака меньше, чем Q₁, а ¾ - значения больше чем Q_1. 2-ая квартиль (Q₂) равна медиане. 3-я квартиль (Q₃) определяет такое значение признака, что ¾ единиц совокупности имеют значения признака меньше, чем Q₃, а ¼ - больше чем Q₃. Значения квартилей для сгруппированных данных определяются по накопленным частотам. При этом для 1-ой квартили накопленная частота сравнивается с величиной N·1/4; для 3-ей квартили – с величиной N·3/4. Значение квартили для интервального ряда распределения может быть уточнено по формуле:

Qi=x₀+D_Qi (i*N/4 – F(x₀))/N_Qi.

x₀- нижняя граница интервала, в котором находится i-ая квартиль;

D_Qi - величина интервала, содержащего i-ую квартиль;

F(x₀) - сумма накопленных частот интервалов, предшествующих интервалу, в котором находится i-ая квартиль;

N_Qi - частота интервала, в котором находится i-ая квартиль.

Децили (D₁, D₂, D₃, D₄, D₅, D₆, D₇, D₈, D₉) – значения признака, делящие упорядоченную по значению признака совокупность на 10 равных частей.

Мода (Mo[x]) - наиболее часто встречающееся значение признака в совокупности.

Для дискретного ряда — это то значение, которому соответствует наибольшая частота распределения. Для интервального ряда в начале определяется интервал, содержащий моду, - тот, которому соответствует наибольшая плотность распределения. Затем приближённо определяется численное значение моды.

Если ряд равноинтервальный, то используется формула:

где x₀ - начало интервала, содержащего моду,

D_Mo - величина интервала, содержащего моду,

N_Mo - частота того интервала, в котором расположена мода,

N_Mo_-1 - частота интервала, предшествующего модальному,

N_Mo₊₁ - частота интервала, следующего за модальным.

Средняя величина характеризует только уровень, закономерный для данной совокупности. В ряде случаев одно и то же численное значение средней может характеризовать совершенно различные совокупности. Поэтому для того чтобы судить о типичности средней для данной совокупности, её следует дополнить показателями, характеризующими вариацию (колеблемость) признака. Наиболее распространёнными из них являются дисперсия, среднее квадратичное отклонение, коэффициент вариации.

Дисперсия ( ) - это среднее из квадратов отклонений от средней величины, для вариационного ряда она определяется по формуле:

Если ряд интервальный, то в качестве варианты (x_i), также как при расчете средней, берётся середина интервала.

При использовании калькулятора, а также для дискретных рядов распределения более удобной может быть другая формула вычисления дисперсии:

где

Наиболее широко в статистике применяется такой показатель вариации, как среднее квадратичное отклонение ( ), который представляет собой квадратный корень из дисперсии.

Относительным показателем колеблемости признака в данной совокупности, является коэффициент вариации (V):

Коэффициент вариации позволяет сравнивать вариации различных признаков, а также одноименных признаков в разных совокупностях.

Контрольное задание №2

1. На основе равноинтервальной структурной группировки (для любого признака) построить вариационный частотный и кумулятивный ряды распределения, оформить в таблице, изобразить графически.

2. Проанализировать вариационный ряд распределения, вычислив:

· среднее арифметическое значение признака;

· медиану и моду, квартили и децили (первую и девятую) распределения;

· среднее квадратичное отклонение;

· дисперсию;

· коэффициент вариации.

3. Сделать выводы.

Методические указания к выполнению задания №3

Индексы

В статистике под индексами понимаются относительные величины, характеризующие результаты сравнения двух уровней одноименных объектов. Однако это не любые показатели сравнения, а специальные, построенные при особых условиях обобщения.

Каждый индекс включает два вида данных: данные текущего (или отчетного ) уровня, которые принято обозначать «1», и базисного уровня, служащего базой сравнения, обозначаемые «0».

В зависимости от степени охвата подвергнутых обобщению единиц изучаемой совокупности индексы подразделяются на индивидуальные(частные) и агрегатные (общие).

Индивидуальные индексы характеризуют изменение отдельных единиц статистической совокупности (например, изменение цен на отдельные виды работ и услуг и т.д.):

где x1 - текущий уровень индексируемой величины;

x0 - базисный уровень индексируемой величины.

Агрегатные индексы выражают сводные обобщающие результаты совместного изменения всех единиц, образующих статистическую совокупность (например, изменение цен на все виды выполняемых работ и услуг и т.д.):

, где

- коэффициент соизмерения;

- текущий уровень индексируемой величины;

- базисный уровень индексируемой величины.

Так как совокупность состоит обычно из элементов, непосредственно не поддающихся суммированию, то агрегатный индекс включает набор значений индексируемой величины {x_j} и соответствующих им коэффициентов соизмерения (весов) {w_j}.

Важной особенностью общих индексов является то, что они обладают синтетическими и аналитическими свойствами. Синтетические свойства индексов состоят в том, что посредством индексного метода производится соединение в целое разнородных единиц статистической совокупности. Аналитические свойства определяются тем, что с помощью индексного метода можно оценить влияние факторов на изменение изучаемого показателя.

Различают индексы количественных и качественных показателей. К индексам количественных (объемных) показателей относятся индексы физического объема продукции, работ и услуг, грузооборота, товарооборота и т.д. - показателей, которые характеризуются абсолютными величинами. К индексам качественных показателей относятся индексы цен, выработки, себестоимости единицы продукции, заработной платы и др., - показателей, уровень которых дается в форме средних (относительных) величин.

Систему этих индексов можно рассмотреть на примере таких показателей, как цена, физический объем работ или услуг и стоимость работ или услуг.

Обозначим цену отдельного вида работ или услуг (качественный показатель) p, а физический объем, т.е. объем работ или услуг отдельного вида в натуральном выражении (количественный показатель) q.

Тогда индивидуальные индексы этих показателей имеют вид:

* физического объема работ или услуг ,

* цены ,

* стоимости .

При определении общего индекса цен I_p существует два подхода:

12 3 4 Следующая ⇒