Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


ГЛАВА 1. ВСЕ, ЧТО ВЫ ХОТЕЛИ ЗНАТЬ О СТАТИСТИКЕ, НО БОЯЛИСЬ СПРОСИТЬ



(глава почти без формул, но с пояснениями)

БРОСИТЬ КУРИТЬ НИКОГДА НЕ ПОЗДНО,

ИЛИ НЕМНОГО ОБ ОПИСАТЕЛЬНОЙ СТАТИСТИКЕ

Если вы курите, то в каком возрасте закурили в первый раз? Именно об этом спрашивали израильских подростков в ходе одного из исследований прове­денных центром RADAR.

В таблице 1.1 приведен фрагмент полученных сведений о поле респондентов и возрасте начала курения для 35 подростков.

Таблица 1.1

Возраст начала курения

Респон­дент   Пол   Возраст начала курения   Респон­дент   Пол   Возраст начала ку­рения   Респон­дент   Пол   Возраст начала курения  
1   М   11   13   Ж   12   25   Ж 13  
2   М   8   14   Ж 10   26   Ж 11  
3   М   12   15   Ж   12   27   М   13  
4   М   6   16   М   12   28   М   7  
5   Ж   13   17   Ж 14   29   М   10  
6   М   12   18   М   7   30   Ж   6  
7   Ж   11   19   М   10   31   М   12  
8   Ж 10   20   М   14   32   М 11
9   М   12   21   М   10   33   М   13  
10   М   15   22   М   8 34 Ж 12
11   Ж   12   23   Ж   11   35   М   10  
12   М   9   24   М   12        

 

В статистике для описания подобных данных обычно используют:

¤ меры центральной тенденции (мода, медиана, среднее);

¤ меры изменчивости (дисперсия и стандартное отклонение).

 

Модой (Мо) называется наиболее часто встречающееся значение среди имеющихся. Для того чтобы разобраться с модой, построим дополнительную таблицу. Поместим в нее значения возраста от минимального (6 лет) до мак­симального (15 лет), и укажем, сколько раз встречается то или иное значение возраста (табл. 1.2).

Таблица 1.2

Упорядоченные данные о возрасте начала курения

Как видно из таблицы, чаще всего подростки начинают курить в 12 лет (это значение возраста встречается чаще всего — 10 раз). Поэтому мода возраста начала курения — 12 лет.

Новая таблица содержит ту же самую информацию, что и предыдущая, но она заметно короче, данные в ней упорядочены по возрастанию, и с ней удоб­ней работать.

Медиана (Ме) представляет собой значение, которое делит упорядоченные данные пополам таким образом, что одна половина данных оказывается мень­ше медианы, а другая — больше.

Нахождение медианы не носит столь наглядного характера, как нахождение моды. Для определения медианы приходится прибегать к дополнительным преобразованиям и вычислениям. Во-первых, дополним таблицу 1.2 еще двумя столбцами (графами) и получим таблицу 1.3.

В первом из дополнительных столбцов запишем значения так называемых «накопленных» (или кумулятивных) частот. Представьте, что мы обходим строй из 35 подростков, которые стоят в шеренгах в зависимости от возраста начала курения. В первой шеренге (6 лет) два человека. Во второй (7 лет) тоже два и т. д. Наша задача — подсчитать, сколько подростков при таком «обходе войск» осталось за нашей спиной. После первой шеренги за нашей спиной два чело­века. После второй — уже четыре (два в первой шеренге и два во второй) и т. д. Это и будут накопленные частоты. Очевидно, после конца «обхода» за нашей спиной будет 35 человек.

Во-вторых, запишем в следующую графу, какой процент от 35 подростков составляет каждое значение накопленных частот.

Таблица 1.3

Вычисление медианы

Попытаемся понять смысл полученного в последней графе результата. При переходе от шеренги «10 лет» к шеренге «11 лет» за плечами остается 37, 1% всех результатов. А при переходе от шеренги «11 лет» к шеренге «12 лет» за плечами уже 51, 4%. Медиана — это та точка, которая делит все данные в отно­шении 50: 50. Очевидно, требуемая точка где-то внутри шеренги «11 лет». То есть Ме = 11.

На этом можно остановиться, хотя обычно для вычисления медианы используются более сложные вычисления. 

Наиболее популярной мерой центральной тенденции является среднее ( ).

Для нахождения среднего используется простая формула, смысл которой в том, чтобы сложить все значения (в нашем случае значения возраста начала курения) и разделить полученный результат на число значений (в нашем слу­чае 35).

Дальше можно идти двумя путями.

Во-первых, начать непосредственно складывать все 35 значений возраста из первой таблицы.

Во-вторых, догадаться, что если некоторые значения возраста встречаются несколько раз, то можно воспользоваться данными из таблицы 1.2 и перейти от сложения повторяющихся значений к умножению этих значений на число повторов (например, возраст 13 лет встречается в первой таблице четыре раза, то вместо 13 + 13 + 13+13 записать 13x4). Тогда:

Меры центральной тенденции показывают, вокруг каких значений группи­руется большинство экспериментальных данных. Обычно в качестве «центра» такого группирования рассматривается среднее ( ).

Меры изменчивости говорят о том, в какой степени полученные результаты отклоняются от «центра группирования», что чаще всего приводит к опреде­лению меры отклонения экспериментальных данных от среднего.

В принципе, в качестве меры изменчивости можно было бы использовать среднее значение отклонений текущих значений от среднего. Для этого необ­ходимо определить, насколько каждое значение возраста отклоняется в большую или меньшую сторону от = 10, 89, затем сложить все результаты и разделить на число значений. К сожалению, этот путь невозможен, поскольку, как пра­вило, отклонения от среднего в большую сторону (со знаком «+») и в меньшую сторону (со знаком «-») компенсируют друг друга и в сумме дают ноль.

Для решения этой проблемы лучше использовать не отклонение от средне­го, а квадрат этого отклонения, потому что такая процедура позволяет избавиться от влияния знака. Вначале делается та же операция - определяется насколько каждое значение возраста отклоняется в большую или меньшую сторону от = 10, 89. Затем каждый из полученных результатов возводится в квадрат, все складывается и делится на число значений. Получаемая таким образом мера изменчивости называется дисперсией.

Еще раз вернемся к таблице 1.2 и дополним ее двумя графами, необходи­мыми для вычисления дисперсии. Получим таблицу 1.4.

Таблица 1.4

       

Вычисление дисперсии

 

Возраст начала курения   Частота   (Возраст-Среднее)   (Возраст-Среднее)2   (Частота)x(Возраст-Среднее)2  
6   2   -4, 89   23, 91   47, 82  
7   2   -3, 89   15, 13   30, 26  
8   2   -2, 89   8, 35   16, 70  
9   1   -1, 89   3, 57   3, 57  
10   6   -0, 89   0, 79   4, 74  
11   5   0, 11   0, 01   0, 05  
12   10   1, 11   1, 23   12, 30  
13   4   2, П   4, 45   17, 80  
14   2   3, 11   9, 67   19, 34  
15   1   4, 11   16, 89   16, 89  
Всего   35           ∑ =169, 47  

 

На практике по ряду причин технического характера, которые мы здесь не обсуждаем, для вычисления дисперсии используется другая формула, незначительно отличающаяся от предыдущей:

Подставим в эту формулу необходимые значения из таблицы 1.4:

К сожалению, дисперсия оказывается не очень удобным показателем меры изменчивости. Наличие в формуле квадрата меняет размерность входящих в нее величин. Например, если мы хотим определить меру изменчивости роста для группы людей, то в формуле для дисперсии будет использоваться значение (Рост — Среднее)2. Размерность этого значения см2. Но см2 — это уже размер­ность площади, а не длины. То есть среднее значение роста будет измерено в единицах длины, а отклонение от среднего — в единицах площади.

Для решения возникшей проблемы вместо значения дисперсии использу­ется квадратный корень из нее. Полученное таким образом новое значение называется стандартным отклонением и является наиболее популярной мерой изменчивости. Стандартное отклонение часто обозначается как σ (сигма):

 

ВКЛЮЧАЕМ КОМПЬЮТЕР И ЗАПУСКАЕМ ПРОГРАММУ SPSS 1

1 Мы предполагаем, что читатель имеет определенный опыт работы с этой программой. Поэтому операции по вводу данных, их кодировке и др. не рассматриваются.

После ввода данных о поле респондентов (переменная «Sех» с обозначением «1» для мальчиков и «2» для девочек) и возрасте начала курения (переменная «аgе» присту­паем к их обработке. Очередность действий и конечный результат показаны на рис. 1.1-1.3.

 

 

Рис. 1.1. Выбор требуемой статистической процедуры

Рис. 1.2. Необходимые для обработки данных действия и настройки

Рис. 1.3. Результат обработки


Поделиться:



Последнее изменение этой страницы: 2019-05-18; Просмотров: 70; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.029 с.)
Главная | Случайная страница | Обратная связь