КНИГА ДЛЯ ТЕХ, КТО НЕ ЛЮБИТ СТАТИСТИКУ,

А. Д. РЕЗНИК

КНИГА ДЛЯ ТЕХ, КТО НЕ ЛЮБИТ СТАТИСТИКУ,

НО ВЫНУЖДЕН ЕЮ ПОЛЬЗОВАТЬСЯ

ПРЕДИСЛОВИЕ

В свое время я был весьма обескуражен тем, с каким упорством студенты-гуманитарии избегали всего, что было связано с математической статистикой. К сожалению, к моменту окончания университета от курса статистики в памяти многих студентов остаются лишь разрозненные сведения и уверенность в том, что лучше с нею не связываться.

Я не собираюсь в этом никого разубеждать. В самом деле, те статистические методы, которые знакомы большинству из нас, требуют для своего корректного применения десятков (а лучше сотен) испытуемых, громоздких многоэтажных вычислений, и, что самое главное, они не дают каких-либо гарантий в получении желаемого результата. Как следствие, использование статистики становится для многих студентов и специалистов непозволительной роскошью: потратить несколько месяцев на сбор, обработку и анализ данных, чтобы в результате не получить ожидаемых результатов.

Это тем более обидно, поскольку вот уже не один десяток лет существуют и широко используются специалистами методы так называемой непараметрической статистики, позволяющие получать обоснованные статистические выводы при наличии крайне небольшого числа испытуемых. Зачастую для использования некоторых из этих методов достаточно выборки в 7—8 человек, что превращает непараметрическую статистику в незаменимый инструмент там, где сложно говорить о больших выборках, массовых опросах или обследованиях и т. п.

Другой привлекательной стороной непараметрических методов статистики является простота процесса математической обработки результатов. В ряде случаев необходимые вычисления можно сделать в уме, не прибегая ни к калькулятору, ни тем более к помощи компьютера.

Описанию и показу возможностей таких методов посвящена данная книга. Ее основная задача — познакомить тех, кто «не дружит со статистикой», с этими методами и пробудить у них желание их использовать в своей повседневной деятельности. Содержание книги в первую очередь ориентировано на специалистов и студентов социального и гуманитарного профиля (психологи, социальные работники, консультанты, педагоги, журналисты и др.).

Книга вряд ли может использоваться в качестве серьезного учебника по непараметрической статистике. Она скорее представляет собой пособие для пользователя, не имеющего серьезной математико-статистической подготовки, но желающего (или вынужденного в силу обстоятельств) использовать статистические методы в своей деятельности. Несмотря на то, что описание приводимых в книге методов дано по возможности подробно и корректно, при возникновении противоречий между научностью и доступностью изложения выбор делался в пользу доступности (и, возможно, в ущерб научности).

Чтение книги не требует специальных знаний из области математики или статистики. В первой главе приведены минимальные сведения из математической статистики, необходимые для понимания того, о чем пойдет речь дальше.

В ряде случаев желающих использовать непараметрическую статистику отпугивает обилие здесь непривычных статистических таблиц. Однако на практике выясняется, что при решении многих задач достаточно всего двух хорошо известных таблиц: таблицы z-распределения и таблицы критических значений для распределения χ ². Эти и другие статистические таблицы, необходимые для рассмотрения описанных в книге методов, приведены в приложении.

При описании непараметрических методов статистики в книге используется типичный в англоязычной литературе термин «тест» вместо более привычного для русскоязычного читателя термина «критерий».

Приводимые в книге примеры частично базируются на результатах исследований, проводимых исследовательским центром RADAR (Regional Alcohol and Drug Abuse Recourse Center) Университета Бен Гурион в Негеве, частично взяты из опыта реальной деятельности психологов, консультантов и социальных работников и частично носят гипотетический характер. Одно из назначений приводимых в книге примеров — показать, что необязательно быть, допустим, психологом-исследователем, чтобы испытывать потребность в статистических методах. Им может найтись место не только в деятельности многих специалистов, но и в обыденной жизни.

Отличительной особенностью данной книги является то, что все рассмотренные в ней примеры сопровождаются описанием соответствующих процедур для программы SPSS.

Программу SPSS использует в своей деятельности все большее число специалистов различного профиля. Однако опыт консультирования по вопросам статистики показал, что знание этой программы не избавляет от проблем. Овладение данной программой зачастую происходит по принципу «Нажми на кнопку — получишь результат». Формально правильное выполнение всех операций в программе SPSS часто сопровождается трудностями в понимании и интерпретации получаемых результатов. Поэтому каждый из приводимых в книге примеров рассматривается дважды: первый раз для вычислений вручную и второй раз для программы SPSS с необходимыми пояснениями. Это особенно важно, поскольку программа SPSS выявила «подводные камни» ряда непараметрических методов, которые до этого применялись исключительно вручную: использование упрощенных алгоритмов вычислений, игнорирование ряда

особенностей в экспериментальных данных (например, наличие в них совпадающих или повторяющихся результатов), ограниченные возможности статистических таблиц и др. Как следствие, результаты, получаемые при вычислениях вручную, могут не совпадать с результатами, выдаваемыми программой SPSS. В книге рассматриваются подобные случаи с описанием тех более строгих статистических алгоритмов, которые используются в программе SPSS при работе с непараметрическими методами.

Разумеется, все, связанное с SPSS, не может служить заменой более серьезным пособиям по использованию данной программы. Тем более что даже для рассматриваемых примеров за рамками книги осталось описание многих ее возможностей.

Книгу можно читать как «слева направо», так и «справа налево». В первом случае речь идет о тех, кто и испытывает потребность в статистике и собирается в дальнейшем перейти к программе SPSS. Во втором случае — о тех, кто освоил программу на уровне «кнопочного интерфейса», но не представляет, что происходит в ее «недрах» и что стоит за выдаваемыми программой результатами.

Я надеюсь, что книга привлечет внимание специалистов, студентов и преподавателей социального и гуманитарного профиля. Надеюсь, что она также будет полезна всем, желающим получить в свои руки достаточно простой и качественный инструмент статистического анализа данных.

Желающие самостоятельно попрактиковаться в использовании программы SPSS могут получить файл, содержащий все рассмотренные в книге примеры, обратившись по адресу reznikal @ bgu. ac. il. Буду рад получить по этому же адресу ваши предложения, замечания и отзывы.

Доктор (PhD) Александр Резник,

Университет Бен-Гурион в Негеве, Израиль

ГЛАВА 1. ВСЕ, ЧТО ВЫ ХОТЕЛИ ЗНАТЬ О СТАТИСТИКЕ, НО БОЯЛИСЬ СПРОСИТЬ

(глава почти без формул, но с пояснениями)

БРОСИТЬ КУРИТЬ НИКОГДА НЕ ПОЗДНО,

ИЛИ НЕМНОГО ОБ ОПИСАТЕЛЬНОЙ СТАТИСТИКЕ

Если вы курите, то в каком возрасте закурили в первый раз? Именно об этом спрашивали израильских подростков в ходе одного из исследований проведенных центром RADAR.

В таблице 1.1 приведен фрагмент полученных сведений о поле респондентов и возрасте начала курения для 35 подростков.

Таблица 1.1

Возраст начала курения

Респондент	Пол	Возраст начала курения	Респондент	Пол	Возраст начала курения	Респондент	Пол	Возраст начала курения
1	М	11	13	Ж	12	25	Ж	13
2	М	8	14	Ж	10	26	Ж	11
3	М	12	15	Ж	12	27	М	13
4	М	6	16	М	12	28	М	7
5	Ж	13	17	Ж	14	29	М	10
6	М	12	18	М	7	30	Ж	6
7	Ж	11	19	М	10	31	М	12
8	Ж	10	20	М	14	32	М	11
9	М	12	21	М	10	33	М	13
10	М	15	22	М	8	34	Ж	12
11	Ж	12	23	Ж	11	35	М	10
12	М	9	24	М	12

В статистике для описания подобных данных обычно используют:

¤ меры центральной тенденции (мода, медиана, среднее);

¤ меры изменчивости (дисперсия и стандартное отклонение).

Модой (Мо) называется наиболее часто встречающееся значение среди имеющихся. Для того чтобы разобраться с модой, построим дополнительную таблицу. Поместим в нее значения возраста от минимального (6 лет) до максимального (15 лет), и укажем, сколько раз встречается то или иное значение возраста (табл. 1.2).

Таблица 1.2

Вычисление медианы

Попытаемся понять смысл полученного в последней графе результата. При переходе от шеренги «10 лет» к шеренге «11 лет» за плечами остается 37, 1% всех результатов. А при переходе от шеренги «11 лет» к шеренге «12 лет» за плечами уже 51, 4%. Медиана — это та точка, которая делит все данные в отношении 50: 50. Очевидно, требуемая точка где-то внутри шеренги «11 лет». То есть Ме = 11.

На этом можно остановиться, хотя обычно для вычисления медианы используются более сложные вычисления.

Наиболее популярной мерой центральной тенденции является среднее ( ).

Для нахождения среднего используется простая формула, смысл которой в том, чтобы сложить все значения (в нашем случае значения возраста начала курения) и разделить полученный результат на число значений (в нашем случае 35).

Дальше можно идти двумя путями.

Во-первых, начать непосредственно складывать все 35 значений возраста из первой таблицы.

Во-вторых, догадаться, что если некоторые значения возраста встречаются несколько раз, то можно воспользоваться данными из таблицы 1.2 и перейти от сложения повторяющихся значений к умножению этих значений на число повторов (например, возраст 13 лет встречается в первой таблице четыре раза, то вместо 13 + 13 + 13+13 записать 13x4). Тогда:

Меры центральной тенденции показывают, вокруг каких значений группируется большинство экспериментальных данных. Обычно в качестве «центра» такого группирования рассматривается среднее ( ).

Меры изменчивости говорят о том, в какой степени полученные результаты отклоняются от «центра группирования», что чаще всего приводит к определению меры отклонения экспериментальных данных от среднего.

В принципе, в качестве меры изменчивости можно было бы использовать среднее значение отклонений текущих значений от среднего. Для этого необходимо определить, насколько каждое значение возраста отклоняется в большую или меньшую сторону от = 10, 89, затем сложить все результаты и разделить на число значений. К сожалению, этот путь невозможен, поскольку, как правило, отклонения от среднего в большую сторону (со знаком «+») и в меньшую сторону (со знаком «-») компенсируют друг друга и в сумме дают ноль.

Для решения этой проблемы лучше использовать не отклонение от среднего, а квадрат этого отклонения, потому что такая процедура позволяет избавиться от влияния знака. Вначале делается та же операция - определяется насколько каждое значение возраста отклоняется в большую или меньшую сторону от = 10, 89. Затем каждый из полученных результатов возводится в квадрат, все складывается и делится на число значений. Получаемая таким образом мера изменчивости называется дисперсией.

Еще раз вернемся к таблице 1.2 и дополним ее двумя графами, необходимыми для вычисления дисперсии. Получим таблицу 1.4.

Таблица 1.4

Вычисление дисперсии

Возраст начала курения

Частота

(Возраст-Среднее)

(Возраст-Среднее)²

(Частота)x(Возраст-Среднее)²

-4, 89

23, 91

47, 82

-3, 89

15, 13

30, 26

-2, 89

8, 35

16, 70

-1, 89

3, 57

-0, 89

0, 79

4, 74

0, 11

0, 01

0, 05

1, 11

1, 23

12, 30

2, П

4, 45

17, 80

3, 11

9, 67

19, 34

4, 11

16, 89

Всего

∑ =169, 47

На практике по ряду причин технического характера, которые мы здесь не обсуждаем, для вычисления дисперсии используется другая формула, незначительно отличающаяся от предыдущей:

Подставим в эту формулу необходимые значения из таблицы 1.4:

К сожалению, дисперсия оказывается не очень удобным показателем меры изменчивости. Наличие в формуле квадрата меняет размерность входящих в нее величин. Например, если мы хотим определить меру изменчивости роста для группы людей, то в формуле для дисперсии будет использоваться значение (Рост — Среднее)². Размерность этого значения см². Но см² — это уже размерность площади, а не длины. То есть среднее значение роста будет измерено в единицах длины, а отклонение от среднего — в единицах площади.

Для решения возникшей проблемы вместо значения дисперсии используется квадратный корень из нее. Полученное таким образом новое значение называется стандартным отклонением и является наиболее популярной мерой изменчивости. Стандартное отклонение часто обозначается как σ (сигма):

ВКЛЮЧАЕМ КОМПЬЮТЕР И ЗАПУСКАЕМ ПРОГРАММУ SPSS ¹

¹ Мы предполагаем, что читатель имеет определенный опыт работы с этой программой. Поэтому операции по вводу данных, их кодировке и др. не рассматриваются.

После ввода данных о поле респондентов (переменная «Sех» с обозначением «1» для мальчиков и «2» для девочек) и возрасте начала курения (переменная «аgе» приступаем к их обработке. Очередность действий и конечный результат показаны на рис. 1.1-1.3.

Рис. 1.1. Выбор требуемой статистической процедуры

Рис. 1.2. Необходимые для обработки данных действия и настройки

Рис. 1.3. Результат обработки

КТО БОЛЕЕ КОМПАНЕЙСКИЙ,

ПОЛНЕЮТ ЛИ ОТ СЧАСТЬЯ,

МОЛОДЕЖЬ И НАРКОТИКИ,

ИЛИ ШКАЛА НАИМЕНОВАНИЙ

² Быт. 2, 20.

Использование шкалы наименований позволяет наделять объекты или их свойства (признаки) именами. Телефонные и автомобильные номера, различные цветные фигурки на шкафчиках в детском саду и т. п. — это примеры имен, которыми мы наделяем различные объекты. При этом неважно, что будет использоваться в качестве имени — цифры, буквенные сочетания, условные обозначения и т. п. Основное требование здесь — не присваивать одно и то же имя двум разным объектам (или объектам с различными свойствами). В то же время если мы имеем дело с одинаковыми объектами или объектами, обладающими совпадающими свойствами, то они должны в шкале наименований получать одинаковые имена. Например, если выборка состоит из мужчин и женщин, то можно всем мужчинам присвоить «имя» 1, а всем женщинам — «имя» 2 (или любое другое, не совпадающее с первым). Если нас интересует семейное положение, то можно всем женатым присвоить «имя» 1, холостым — «имя» 2, разведенным — «имя» 3. Количество используемых имен должно быть не меньше числа типов объектов или их свойств. Например, трех «имен» для обозначения семейного положения может оказаться недостаточно в случае наличия в выборке вдов/вдовцов. Для их обозначения потребуется дополнительное «имя».

Несмотря на то, что шкала наименований образует «низший» уровень измерения, ее использование является необходимым этапом при использовании статистических методов. Переход к шкалам более высокого порядка зачастую оказывается невозможен, если не решен вопрос о том, к каким объектам будут относиться получаемые данные: чтобы они были данными о чем-то, объекты должны иметь имена.

Выше отмечалось, что с каждой из шкал связан определенный набор допустимых математико-статистических операций. Поскольку в шкале наименований числа — не более чем ярлыки, «наклеиваемые» на объекты, с этими числами нельзя производить никаких действий. Их нельзя складывать или вычитать, делить или умножать. Возможен подсчет числа объектов с одинаковыми именами (например, число мужчин и женщин в выборке) или с одинаковыми свойствами (например, уроженцы Израиля и иммигранты).

Таблица 2.2

Значения и ранги IQ детей

IQ детей	Ранг	IQ детей	Ранг
90	2	105	12
90	2	105	12
90	2	105	12
95	5	110	15
95	5	110	15
95	5	110	15
100	8, 5	115	17, 5
100	8, 5	115	17, 5
100	8, 5	120	19
100	8, 5	125	20

Вернемся к исходной таблице 1.5 и заменим в ней значения IQ для родителей и детей соответствующими рангами. Получим таблицу 2.5, в которой вместо значений IQ приведены ранги этих значений.

Таблица 2.5

Ранги IQ родителей и детей

Семья	Ранг IQ родителей	Ранг IQ детей	Семья	Ранг IQ родителей	Ранг 10 де-
1	2	8, 5	11	11	15
2	2	2	12	11	8, 5
3	2	5	13	13	17, 5
4	5	2	14	15	12
5	5	5	15	15	8, 5
6	5	8, 5	16	15	17, 5
7	8	12	17	17, 5	15
8	8	2	18	17, 5	20
9	8	5	19	19, 5	19
10	11	12	20	19, 5	15

Процедура ранжирования лежит в основе многих непараметрических методов статистики, поэтому желательно владеть навыками ранжирования в совершенстве.

Многие из непараметрических методов чувствительны к наличию связанных рангов. Связанные ранги могут существенно повлиять на получаемые результаты статистического анализа. Для их учета во многие расчетные формулы приходится вносить различные корректирующие поправки⁵.

⁵ К сожалению, авторы многих учебных пособий по статистике и математическим методам в психологии обходят стороной вопрос связанных рангов. О существовании данной проблемы либо не упоминается, либо наличие связанных рангов в приводимых примерах игнорируется и вычисления проводятся по нескорректированным формулам.

2.4. «451° ПО ФАРЕНГЕЙТУ»⁶,

ФОРД», «ФИАТ», «ТОЙОТА»,

ИЛИ ТЕСТ х²ДЛЯ ЕДИНСТВЕННОЙ ВЫБОРКИ

Покупка машины — важный этап в жизни каждой семьи. По улицам израильских городов бегает несколько десятков марок автомобилей на любой вкус, но если присмотреться, то создается впечатление, что некоторые марки встречаются чаще других. Для проверки этого предположения Анна и Даниил, собравшиеся обзавестись автомобилем, решили проверить, какие машины чаще всего встречаются на улицах их города. При этом они договорились фиксировать не конкретные марки машин, а то, откуда машина «родом», — Америка (США), Европа, Юго-Восточная Азия (Япония и Южная Корея) или другое (Россия, Индия, Китай и др.). Случайным образом было проверено 80 машин, которые распределились в зависимости от места производства следующим образом (табл.3.1).

Таблица 3.1

По странам-производителям

Место выпуска	Америка	Европа	Азия	Другое	Итого
Теоретическое количество	20	20	20	20	80
Эмпирическое количество	17	23	32	8	80

Дальнейший алгоритм действий прост.

Формулируем нулевую и альтернативную гипотезы и задаем уровень значимости α =0, 05.

Н₀: Все страны-производители машин представлены одинаковым образом (вероятность встретить на дороге машину, произведенную, например, в США, равна вероятности встретить машину, произведенную в Европе или в Юго-Восточной Азии, и т. д.).

Н₁: Различные страны-производители машин представлены неодинаковым образом (вероятность встретить машину, произведенную в США, не равна вероятности встретить машину, произведенную в Европе, в Юго-Восточной Азии и т. д.).

Затем вычисляется сумма отклонений между наблюдаемыми и теоретическими значениями по формуле:

где Оj — наблюдаемые (observed), или эмпирические, значения (частоты) для каждой из категорий таблицы 3.2; Еj — ожидаемые (expected), или теоретические, значения (частоты) для каждой из категорий таблицы 3.2; k — количество категорий в таблице 3.2.

С учетом введенных обозначений перейдем от таблицы 3.2 к таблице 3.3.

Подставим соответствующие значения Оj и Еj в расчетную формулу:

Таблица 3.3

СТУДЕНТЫ ГОЛОСУЮТ НОГАМИ, ИЛИ ТЕСТ ФРИДМАНА

Уже знакомый нам преподаватель предположил, что одни занятия студенты прогуливают чаще, а другие — реже. Он связался с другими преподавателями и в конце семестра получил данные о числе пропусков занятий у студентов своей группы еще по двум предметам; Полученные результаты приведены в таблице 5.2. Таблица содержит сведения о числе пропусков занятий для студентов одной группы по трем предметам: А, В, С.

Можно ли на основании полученных данных утверждать, что студенты пропускают занятия выборочно, в зависимости от изучаемого предмета?

Ответ на этот вопрос может быть получен несколькими путями. Первый путь связан с попарным сравнением числа пропусков по предметам А, В, С между собой. Для этого потребуется трижды использовать, например, тест Вилкоксона.

Существует другая возможность, предложенная Фридманом. Тест Фридмана позволяет сравнивать результаты трех и более измерений, полученных на одной и той же выборке. С его помощью можно определить, отличаются ли полученные результаты друг от друга, без выявления направления отличий³.

³ В общем случае тест Фридмана рассматривается как непараметрический аналог двухфакторного дисперсионного анализа (Two-way ANOVA by ranks). Он позволяет оценить эффект воздействия двух факторов на измеряемую величину. В нашем примере измеряемая величина — число пропусков занятий. Она находится под воздействием двух факторов. Первый фактор - «предметы/ преподаватели», имеющий три уровня. Второй фактор - «студенты», имеющий 20 уровней.

Таблица 5.2

Число пропусков занятий по предметам А, В и С

Студент	Предметы Предметы			Студент	Предметы
Студент	А	В	С	Студент	А	В	С
1	3	5	7	11	2	4	1
2	5	2	3	12	2	0	3
3	2	6	4	13	5	3	0
4	6	7	5	14	0	3	3
5	7	1	3	15	3	7	5
6	5	0	2	16	0	5	4
7	0	4	3	17	3	4	6
8	4	5	6	18	1	6	4
9	1	2	3	19	3	5	3
10	5	7	7	20	5	1	2

Тест Фридмана, как и тест Вилкоксона, также использует процедуру ранжирования результатов измерений, но ранжирование происходит не по вертикали, как в тесте Вилкоксона, а по горизонтали, от измерения к измерению. Например, первый студент по предмету А пропустил 3 занятия, по предмету В — 5 занятий, по предмету С — 7 занятий. Если эти результаты проранжировать, то получим ранги 1, 2, 3 (первый ранг приписывается наименьшему значению).

Перепишем таблицу 5.2 с указанием рангов для каждого студента. Получим таблицу 5.3, в которой выделены значения рангов для каждого студента.

Если предположить, что число пропусков мало меняется от предмета к предмету, то суммы рангов для каждого из столбцов также должны мало отличаться друг от друга. В том случае, если одни предметы пропускаются чаще, а другие реже, суммы рангов в каждом из столбцов будут существенно отличаться друг от друга.

Мерой отличия сумм рангов друг от друга является значение Х² _r, вычисляемое по следующей формуле:

где N — число строк в таблице (размер выборки); k — число столбцов в таблице (количество измерений); R_j — сумма рангов, соответственно, для первого, второго и третьего столбцов.

Таблица 5.3

Число пропусков занятий по предметам А, В, С и их ранги

Найденное значение Х² _r_эмпирсравнивается с критическим значением Х² _r_критич, которое находится по уже знакомой таблице для теста Х²(табл. 2, Приложение 2) для выбранного уровня значимости а и числа степеней свободы df =( k -1).

В том случае, если Х² _r_эмпирменьше Х² _r_критич. нет оснований, чтобы отвергнуть нулевую гипотезу.

В том случае, Х² _r_эмпир больше или равно Х² _r_критич, нулевая гипотеза отвергается и принимается альтернативная.

Итак, выбираем уровень значимости α = 0, 05 и формулируем нулевую и альтернативную гипотезы.

Н₀: Пропуски студентами занятий носят случайный характер и не определяются изучаемым предметом.

Н₁: Пропуски студентами занятий носят неслучайный характер и определяются тем, какой предмет они изучают (двусторонняя критическая область).

По данным таблицы 5.3, имеем:

Подставляем эти значения в формулу для вычисления Х² _r:

Так как Х² _r_эмпир= 2, 80 меньше Х² _r_критич = 5, 99, нет оснований, чтобы отвергнуть нулевую гипотезу. Пропуски студентами занятий носят случайный характер и не определяются изучаемым предметом.

Сейчас еще один пример.

В ходе одного из экспериментов по когнитивной психологии фиксировалось время (в минутах), которое требуется лабораторной мыши для выхода из лабиринта в четырех различных экспериментальных условиях.

Для группы из четырех мышей были получены следующие значения времени в зависимости от экспериментальных условий А, В, С, D (табл. 5.4).

Таблица 5.4

От условий эксперимента

	Условия эксперимента
	А	В	С	D
Мышь 1	5	3	2	4
Мышь 2	4	3	2	5
Мышь 3	6	2	3	5
Мышь 4	6	4	3	5

Проранжируем результаты в каждой строке, запишем их в новую таблицу (табл. 5.5) и найдем сумму рангов для каждого столбца.

Таблица 5.5

Значения ожидаемых частот

Наркоманы	Работающие	Безработные	Итого
Женатые	224x125 Е₁₁= 450 =62, 2	226x125 Е₁₂= 450 =62, 8	125
Разведенные	224x162 Е₂₁= 450 =80, 6	226x162 Е₂₂= 450 =81, 4	162
Не состоявшие в браке	224x163 Е₃₁= 450 =81, 1	226x163 Е₃₂= 450 =81, 9	163
Итого	224	226	450

Подставим значения наблюдаемых и ожидаемых частот в формулу для вычисления Х²:

В табл. 2 находим значение Х²_критичдля α =0, 05 и числа степеней свободы

df =( r -1)( k -1)=(3-1)(2-1)=2: Х²_критич =5, 99.

Поскольку Х²_эмпир > Х²_критич. нулевая гипотеза отвергается и принимается альтернативная. Семейное положение работающих мужчин-наркоманов отличается от семейного положения безработных мужчин-наркоманов.

ВКЛЮЧАЕМ КОМПЬЮТЕР...

В переменной «Происхождение» (origin) означим Израиль как 1, все другие страны как 2. Переменная «Блондинка» (blond) содержит сведения о цвете волос: 1 — блондинка, 0 — нет. Дальнейшая последовательность действий и получаемый результат показаны на рис. 6.1-6.3⁶.

⁶ Программа SPSS предоставляет большой набор возможностей по работе с таблицами сопряженности. Рассмотрение их в полном объеме выходит за рамки этой книги.

Рис. 6.1. Выбор требуемой статистической процедуры

Рис. 6.2. Тест Х² для двух независимых выборок: необходимые действия и настройки

Рис. 6.3. Тест Х² для двух независимых выборок: результат

Рис. 6.3. Окончание

Рассмотрим еще один пример, посвященный семейному положению работающих и неработающих наркоманов. В случае больших выборок результаты в расчетной таблице зачастую удобнее представлять не в виде абсолютных значений, а в виде процентов. На рис. 6.4 и 6.5 показано, как использовать эту возможность.

Рис. 6.4. Тест Х² для двух независимых выборок: необходимые действия и настройки

Рис. 6.5. Тест Х² для двух независимых выборок: результат (случай большой выборки)

Общий вид расчетной таблицы

	Храпят	Не храпят	Итого
Предпочитают спать на спине	8 А	3 В	11 (А+В)
Предпочитают спать не на спине	2 С	9 D	11 (C+ D)
Итого	10 (А+C)	12 (В+D)	22

Идея точного теста Фишера в следующем.

12 3 4 5 6 7 8 9 10 Следующая ⇒