Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Анализ данных с помощью описательной (дескриптивной) статистики. Частотное распределение, меры средней тенденции и разброса



 

В социологии при обработке данных проводится анализ “поведения” признаков на совокупности объектов. Это означает, что мы должны обработать эмпирические данные, чтобы получить распределение изучаемых объектов по изучаемым признакам и по характеру этого распределения судить о структуре изучаемого объекта.

Цель описательной (дескриптивной) статистики - обработка эмпирических данных, их систематизация, наглядное представление в форме графиков и таблиц, а также их количественное описание посредством основных статистических показателей.
Описательная статистика использует три основных метода описания данных:

•Табличное представление

•Графическое изображение

•Расчет статистических показателей

Основные статистические показатели можно разделить на три группы: одномерные частотные распределения, меры средней тенденции и меры разброса.

Одномерные частотные распределения (ОЧР). Построение ОЧР предполагает расчет частоты встречаемости каждого значения рассматриваемого признака.

Частота встречаемости – выборочная оценка соответствующей вероятности. Н-р: если 40 % женщин в выборке, то значит, мы встречаем женщин в выборке с вероятностью 40%.

Относительная частота – частота встречаемости, выраженная в процентах к общему объему совокупности. 3: 23*100=13

Накопленная частота – сумма предыдущего значения частоты встречаемости с настоящим. Сумма частот встречаемости признаков. 3+9=12

Относительная накопленная частота – сумма предыдущего значения относительной частоты с настоящим. 13+39=52

ОЧР представляют в виде относительной частоты или частоты встречаемости. Визуализация «поведения» признака может быть представлена в виде гистограммы или полигона распределений.

Гистограмма отражает плотность частоты встречаемости, о которой свидетельствует площадь столбика. Гистограмма строится по плотностираспределения. Плотность в интервале –это число респондентов, приходящихся на единицу интервала. Гистограмму используют для изображения интервальных рядов. Для построения гистограммы по данным вариационного ряда с равными интервалами, на оси ОХ откладывают значения, а на оси ОУ - значения частот или относительных частот

При построении гистограммы с разными интервалами, выбирается единичный интервал (наименьший), для остальных интервалов величина столбика равна числу, который получится делением значения признака в интервале на число, во сколько раз интервал больше единичного. Н-р: интервал [20-50), единичным является интервал 5. 50-20=30: 5=6. В 6 раз больше единичного. 45: 6=7, 5 – величина столбца.

Для построения полигона на оси ОХ в откладывают значения, а на оси ОУ - значения частот или относительных частот. Полученные точки последовательно соединяют отрезками прямой.

Для порядковой и метрической шкалы гистограмму и эмпирическую кривую распределения можно построить и по накопленной частоте. Только в этом случае для эмпирической кривой распределения существует специфическое название. Она называется кумулята, а накопленную частоту называют кумулятивной. Для ее построения на оси абсцисс откладывают значения аргумента, а на оси ординат - накопленные частоты или накопленные относительные частоты.

Для построения метрических признаков точку накопленной частоты привязывают к концу интервала. Кумулята строится только для порядковых и метрических шкал. Т.к. для номинальных нет понятия накопления.

Меры средней тенденции (МСТ) дают усредненную характеристику совокупности объектов по определенному признаку. Наиболее употребительны 3: математическое ожидание (МО), квантили, мода. Они характеризуют всю совокупность одним числом. Каждая в большей мере применяется для одной из шкал измерения. Мода – номинальные, квантили – порядковые, МО – метрические.

МО.

При сравнении групп по значению МО стает вопрос какое различие является значимым. При расчете F-критерия Стьюдента учитывается различие в средних значениях и объемах сравниваемых совокупностей. По значению F-критерия определяется уровень значимости α. Считается, что средние значения статистически различимы, если α ≤ 0.05. При этом говорим о наличии различия средних значений с достоверностью 95%.

Квантиль – такое значение признака, которое делит диапазон его измерения на 2 части так, чтобы отношение числа элементов выборки. Имеющих значение признака меньше данного, к числу элементов, имеющих значение больше данного. Было равно заранее заданной величине.

В социологии применяются 4 семьи квантилей:

1. Состоит из 1 квантиля – медианы. Такое значение признака, которое делит отвечающий этому признаку вариационный ряд пополам. (Me)

2. Квартили – делят вариационный ряд на 4 части. (Q)

3. Децили – делят на 10 частей. (D)

4. Процентили – делят на 100 частей.(P)

Мода – наиболее часто встречающееся значение признака. Рассчитывается для всех шкал. Для метрических рассчитывается по формуле.

Средние значения не дают полной информации о варьирующем признаке. Поэтому наряду со средними значениями вычисляют и меры разброса выборки. Они показывают, насколько хорошо данные значения представляют данную совокупность, степень однородности значений.

Дисперсия случайной величины. S2

Среднеквадратическое отклонение(СКО).По ней можно сравнивать меры рассеяния разных признаков, одного признака для различных совокупностей.

Квартильный размах – разность между квантилями. Обычно используется для порядковых шкал. Δ Q=Q3-Q1.

Модель разброса считается только, если респонденты распределены по всем значениям. то это максимальный разброс. Если все респонденты относятся к одному значению признака, что это отсутствие разброса. Минимальный разброс = 0.

2 способа расчета разброса для номинальных признаков:

1) Мера качественной вариации.

J= N-объем выборки, К – количество градаций признака (число значений), ni, nj – частоты встречаемости i и j значения признаков.

Для дихотомического признака дисперсия значений равна коэффициент вариации делят на 4.

2) Модель энтропийного разброса.

Энтропия – мера неопределенности, рассеяния энергии, мера устойчивости системы и мера равновесного состояния. Рост энтропии применяется в частотных распределениях и предполагает повышение равномерности распределения. Расномерное распределение – наибольшая энтропия. Когда все выбирают одно и то же значение – энтропия = 0.

 


Поделиться:



Последнее изменение этой страницы: 2017-03-14; Просмотров: 1957; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.014 с.)
Главная | Случайная страница | Обратная связь