Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


КНИГА ДЛЯ ТЕХ, КТО НЕ ЛЮБИТ СТАТИСТИКУ,



А. Д. РЕЗНИК

КНИГА ДЛЯ ТЕХ, КТО НЕ ЛЮБИТ СТАТИСТИКУ,

НО ВЫНУЖДЕН ЕЮ ПОЛЬЗОВАТЬСЯ

ПРЕДИСЛОВИЕ

В свое время я был весьма обескуражен тем, с каким упорством студенты-гуманитарии избегали всего, что было связано с математической статистикой. К сожалению, к моменту окончания университета от курса статистики в памя­ти многих студентов остаются лишь разрозненные сведения и уверенность в том, что лучше с нею не связываться.

Я не собираюсь в этом никого разубеждать. В самом деле, те статистические методы, которые знакомы большинству из нас, требуют для своего корректно­го применения десятков (а лучше сотен) испытуемых, громоздких многоэтаж­ных вычислений, и, что самое главное, они не дают каких-либо гарантий в получении желаемого результата. Как следствие, использование статистики становится для многих студентов и специалистов непозволительной роскошью: потратить несколько месяцев на сбор, обработку и анализ данных, чтобы в результате не получить ожидаемых результатов.

Это тем более обидно, поскольку вот уже не один десяток лет существуют и широко используются специалистами методы так называемой непараметриче­ской статистики, позволяющие получать обоснованные статистические выво­ды при наличии крайне небольшого числа испытуемых. Зачастую для исполь­зования некоторых из этих методов достаточно выборки в 7—8 человек, что превращает непараметрическую статистику в незаменимый инструмент там, где сложно говорить о больших выборках, массовых опросах или обследовани­ях и т. п.

Другой привлекательной стороной непараметрических методов статистики является простота процесса математической обработки результатов. В ряде случаев необходимые вычисления можно сделать в уме, не прибегая ни к каль­кулятору, ни тем более к помощи компьютера.

Описанию и показу возможностей таких методов посвящена данная книга. Ее основная задача — познакомить тех, кто «не дружит со статистикой», с эти­ми методами и пробудить у них желание их использовать в своей повседневной деятельности. Содержание книги в первую очередь ориентировано на специа­листов и студентов социального и гуманитарного профиля (психологи, соци­альные работники, консультанты, педагоги, журналисты и др.).

Книга вряд ли может использоваться в качестве серьезного учебника по непараметрической статистике. Она скорее представляет собой пособие для пользователя, не имеющего серьезной математико-статистической подготовки, но желающего (или вынужденного в силу обстоятельств) использовать стати­стические методы в своей деятельности. Несмотря на то, что описание приво­димых в книге методов дано по возможности подробно и корректно, при воз­никновении противоречий между научностью и доступностью изложения выбор делался в пользу доступности (и, возможно, в ущерб научности).

Чтение книги не требует специальных знаний из области математики или статистики. В первой главе приведены минимальные сведения из математической статистики, необходимые для понимания того, о чем пойдет речь дальше.

В ряде случаев желающих использовать непараметрическую статистику отпугивает обилие здесь непривычных статистических таблиц. Однако на прак­тике выясняется, что при решении многих задач достаточно всего двух хорошо известных таблиц: таблицы z-распределения и таблицы критических значений для распределения χ 2. Эти и другие статистические таблицы, необходимые для рассмотрения описанных в книге методов, приведены в приложении.

При описании непараметрических методов статистики в книге использует­ся типичный в англоязычной литературе термин «тест» вместо более привыч­ного для русскоязычного читателя термина «критерий».

Приводимые в книге примеры частично базируются на результатах иссле­дований, проводимых исследовательским центром RADAR (Regional Alcohol and Drug Abuse Recourse Center) Университета Бен Гурион в Негеве, частично взяты из опыта реальной деятельности психологов, консультантов и социаль­ных работников и частично носят гипотетический характер. Одно из назначе­ний приводимых в книге примеров — показать, что необязательно быть, допустим, психологом-исследователем, чтобы испытывать потребность в ста­тистических методах. Им может найтись место не только в деятельности мно­гих специалистов, но и в обыденной жизни.

Отличительной особенностью данной книги является то, что все рассмот­ренные в ней примеры сопровождаются описанием соответствующих процедур для программы SPSS.

Программу SPSS использует в своей деятельности все большее число спе­циалистов различного профиля. Однако опыт консультирования по вопросам статистики показал, что знание этой программы не избавляет от проблем. Овладение данной программой зачастую происходит по принципу «Нажми на кнопку — получишь результат». Формально правильное выполнение всех опе­раций в программе SPSS часто сопровождается трудностями в понимании и интерпретации получаемых результатов. Поэтому каждый из приводимых в книге примеров рассматривается дважды: первый раз для вычислений вручную и второй раз для программы SPSS с необходимыми пояснениями. Это особен­но важно, поскольку программа SPSS выявила «подводные камни» ряда непа­раметрических методов, которые до этого применялись исключительно вручную: использование упрощенных алгоритмов вычислений, игнорирование ряда

особенностей в экспериментальных данных (например, наличие в них совпа­дающих или повторяющихся результатов), ограниченные возможности стати­стических таблиц и др. Как следствие, результаты, получаемые при вычисле­ниях вручную, могут не совпадать с результатами, выдаваемыми программой SPSS. В книге рассматриваются подобные случаи с описанием тех более стро­гих статистических алгоритмов, которые используются в программе SPSS при работе с непараметрическими методами.

Разумеется, все, связанное с SPSS, не может служить заменой более серьез­ным пособиям по использованию данной программы. Тем более что даже для рассматриваемых примеров за рамками книги осталось описание многих ее возможностей.

Книгу можно читать как «слева направо», так и «справа налево». В первом случае речь идет о тех, кто и испытывает потребность в статистике и собирается в дальнейшем перейти к программе SPSS. Во втором случае — о тех, кто освоил программу на уровне «кнопочного интерфейса», но не представляет, что про­исходит в ее «недрах» и что стоит за выдаваемыми программой результатами.

Я надеюсь, что книга привлечет внимание специалистов, студентов и пре­подавателей социального и гуманитарного профиля. Надеюсь, что она также будет полезна всем, желающим получить в свои руки достаточно простой и качественный инструмент статистического анализа данных.

Желающие самостоятельно попрактиковаться в использовании программы SPSS могут получить файл, содержащий все рассмотренные в книге примеры, обратившись по адресу reznikal @ bgu. ac. il. Буду рад получить по этому же ад­ресу ваши предложения, замечания и отзывы.

Доктор (PhD) Александр Резник,

Университет Бен-Гурион в Негеве, Израиль

 

 

 

 

 

 

ГЛАВА 1. ВСЕ, ЧТО ВЫ ХОТЕЛИ ЗНАТЬ О СТАТИСТИКЕ, НО БОЯЛИСЬ СПРОСИТЬ

(глава почти без формул, но с пояснениями)

БРОСИТЬ КУРИТЬ НИКОГДА НЕ ПОЗДНО,

ИЛИ НЕМНОГО ОБ ОПИСАТЕЛЬНОЙ СТАТИСТИКЕ

Если вы курите, то в каком возрасте закурили в первый раз? Именно об этом спрашивали израильских подростков в ходе одного из исследований прове­денных центром RADAR.

В таблице 1.1 приведен фрагмент полученных сведений о поле респондентов и возрасте начала курения для 35 подростков.

Таблица 1.1

Возраст начала курения

Респон­дент   Пол   Возраст начала курения   Респон­дент   Пол   Возраст начала ку­рения   Респон­дент   Пол   Возраст начала курения  
1   М   11   13   Ж   12   25   Ж 13  
2   М   8   14   Ж 10   26   Ж 11  
3   М   12   15   Ж   12   27   М   13  
4   М   6   16   М   12   28   М   7  
5   Ж   13   17   Ж 14   29   М   10  
6   М   12   18   М   7   30   Ж   6  
7   Ж   11   19   М   10   31   М   12  
8   Ж 10   20   М   14   32   М 11
9   М   12   21   М   10   33   М   13  
10   М   15   22   М   8 34 Ж 12
11   Ж   12   23   Ж   11   35   М   10  
12   М   9   24   М   12        

 

В статистике для описания подобных данных обычно используют:

¤ меры центральной тенденции (мода, медиана, среднее);

¤ меры изменчивости (дисперсия и стандартное отклонение).

 

Модой (Мо) называется наиболее часто встречающееся значение среди имеющихся. Для того чтобы разобраться с модой, построим дополнительную таблицу. Поместим в нее значения возраста от минимального (6 лет) до мак­симального (15 лет), и укажем, сколько раз встречается то или иное значение возраста (табл. 1.2).

Таблица 1.2

Вычисление медианы

Попытаемся понять смысл полученного в последней графе результата. При переходе от шеренги «10 лет» к шеренге «11 лет» за плечами остается 37, 1% всех результатов. А при переходе от шеренги «11 лет» к шеренге «12 лет» за плечами уже 51, 4%. Медиана — это та точка, которая делит все данные в отно­шении 50: 50. Очевидно, требуемая точка где-то внутри шеренги «11 лет». То есть Ме = 11.

На этом можно остановиться, хотя обычно для вычисления медианы используются более сложные вычисления. 

Наиболее популярной мерой центральной тенденции является среднее ( ).

Для нахождения среднего используется простая формула, смысл которой в том, чтобы сложить все значения (в нашем случае значения возраста начала курения) и разделить полученный результат на число значений (в нашем слу­чае 35).

Дальше можно идти двумя путями.

Во-первых, начать непосредственно складывать все 35 значений возраста из первой таблицы.

Во-вторых, догадаться, что если некоторые значения возраста встречаются несколько раз, то можно воспользоваться данными из таблицы 1.2 и перейти от сложения повторяющихся значений к умножению этих значений на число повторов (например, возраст 13 лет встречается в первой таблице четыре раза, то вместо 13 + 13 + 13+13 записать 13x4). Тогда:

Меры центральной тенденции показывают, вокруг каких значений группи­руется большинство экспериментальных данных. Обычно в качестве «центра» такого группирования рассматривается среднее ( ).

Меры изменчивости говорят о том, в какой степени полученные результаты отклоняются от «центра группирования», что чаще всего приводит к опреде­лению меры отклонения экспериментальных данных от среднего.

В принципе, в качестве меры изменчивости можно было бы использовать среднее значение отклонений текущих значений от среднего. Для этого необ­ходимо определить, насколько каждое значение возраста отклоняется в большую или меньшую сторону от = 10, 89, затем сложить все результаты и разделить на число значений. К сожалению, этот путь невозможен, поскольку, как пра­вило, отклонения от среднего в большую сторону (со знаком «+») и в меньшую сторону (со знаком «-») компенсируют друг друга и в сумме дают ноль.

Для решения этой проблемы лучше использовать не отклонение от средне­го, а квадрат этого отклонения, потому что такая процедура позволяет избавиться от влияния знака. Вначале делается та же операция - определяется насколько каждое значение возраста отклоняется в большую или меньшую сторону от = 10, 89. Затем каждый из полученных результатов возводится в квадрат, все складывается и делится на число значений. Получаемая таким образом мера изменчивости называется дисперсией.

Еще раз вернемся к таблице 1.2 и дополним ее двумя графами, необходи­мыми для вычисления дисперсии. Получим таблицу 1.4.

Таблица 1.4

       

Вычисление дисперсии

 

Возраст начала курения   Частота   (Возраст-Среднее)   (Возраст-Среднее)2   (Частота)x(Возраст-Среднее)2  
6   2   -4, 89   23, 91   47, 82  
7   2   -3, 89   15, 13   30, 26  
8   2   -2, 89   8, 35   16, 70  
9   1   -1, 89   3, 57   3, 57  
10   6   -0, 89   0, 79   4, 74  
11   5   0, 11   0, 01   0, 05  
12   10   1, 11   1, 23   12, 30  
13   4   2, П   4, 45   17, 80  
14   2   3, 11   9, 67   19, 34  
15   1   4, 11   16, 89   16, 89  
Всего   35           ∑ =169, 47  

 

На практике по ряду причин технического характера, которые мы здесь не обсуждаем, для вычисления дисперсии используется другая формула, незначительно отличающаяся от предыдущей:

Подставим в эту формулу необходимые значения из таблицы 1.4:

К сожалению, дисперсия оказывается не очень удобным показателем меры изменчивости. Наличие в формуле квадрата меняет размерность входящих в нее величин. Например, если мы хотим определить меру изменчивости роста для группы людей, то в формуле для дисперсии будет использоваться значение (Рост — Среднее)2. Размерность этого значения см2. Но см2 — это уже размер­ность площади, а не длины. То есть среднее значение роста будет измерено в единицах длины, а отклонение от среднего — в единицах площади.

Для решения возникшей проблемы вместо значения дисперсии использу­ется квадратный корень из нее. Полученное таким образом новое значение называется стандартным отклонением и является наиболее популярной мерой изменчивости. Стандартное отклонение часто обозначается как σ (сигма):

 

ВКЛЮЧАЕМ КОМПЬЮТЕР И ЗАПУСКАЕМ ПРОГРАММУ SPSS 1

1 Мы предполагаем, что читатель имеет определенный опыт работы с этой программой. Поэтому операции по вводу данных, их кодировке и др. не рассматриваются.

После ввода данных о поле респондентов (переменная «Sех» с обозначением «1» для мальчиков и «2» для девочек) и возрасте начала курения (переменная «аgе» присту­паем к их обработке. Очередность действий и конечный результат показаны на рис. 1.1-1.3.

 

 

Рис. 1.1. Выбор требуемой статистической процедуры

Рис. 1.2. Необходимые для обработки данных действия и настройки

Рис. 1.3. Результат обработки

КТО БОЛЕЕ КОМПАНЕЙСКИЙ,

ПОЛНЕЮТ ЛИ ОТ СЧАСТЬЯ,

МОЛОДЕЖЬ И НАРКОТИКИ,

ИЛИ ШКАЛА НАИМЕНОВАНИЙ

 2 Быт. 2, 20.

Использование шкалы наименований позволяет наделять объекты или их свойства (признаки) именами. Телефонные и автомобильные номера, различ­ные цветные фигурки на шкафчиках в детском саду и т. п. — это примеры имен, которыми мы наделяем различные объекты. При этом неважно, что будет использовать­ся в качестве имени — цифры, буквенные сочетания, условные обозначения и т. п. Основное требование здесь — не присваи­вать одно и то же имя двум разным объектам (или объектам с различными свойствами). В то же время если мы имеем дело с одина­ковыми объектами или объектами, обладаю­щими совпадающими свойствами, то они должны в шкале наименований получать одинаковые имена. Например, если выбор­ка состоит из мужчин и женщин, то можно всем мужчинам присвоить «имя» 1, а всем женщинам — «имя» 2 (или любое другое, не совпадающее с первым). Если нас интересует семейное положение, то можно всем женатым присвоить «имя» 1, холостым — «имя» 2, разведенным — «имя» 3. Количество используемых имен должно быть не меньше числа типов объектов или их свойств. Например, трех «имен» для обозначения семейного положения может оказаться недостаточно в случае наличия в выборке вдов/вдовцов. Для их обозначения потребуется дополнительное «имя».

Несмотря на то, что шкала наименований образует «низший» уровень изме­рения, ее использование является необходимым этапом при использовании статистических методов. Переход к шкалам более высокого порядка зачастую оказывается невозможен, если не решен вопрос о том, к каким объектам будут относиться получаемые данные: чтобы они были данными о чем-то, объекты должны иметь имена.

Выше отмечалось, что с каждой из шкал связан определенный набор допус­тимых математико-статистических операций. Поскольку в шкале наименова­ний числа — не более чем ярлыки, «наклеиваемые» на объекты, с этими чис­лами нельзя производить никаких действий. Их нельзя складывать или вычитать, делить или умножать. Возможен подсчет числа объектов с одинако­выми именами (например, число мужчин и женщин в выборке) или с одина­ковыми свойствами (например, уроженцы Израиля и иммигранты).

Таблица 2.2

Значения и ранги IQ детей

IQ детей   Ранг   IQ детей   Ранг  
90   2   105   12  
90   2   105   12  
90   2   105   12  
95   5   110   15  
95   5   110   15  
95   5   110   15  
100   8, 5   115   17, 5  
100   8, 5   115   17, 5  
100   8, 5   120   19  
100   8, 5   125   20  

Вернемся к исходной таблице 1.5 и заменим в ней значения IQ для родителей и детей соответствующими рангами. Получим таблицу 2.5, в которой вместо значений IQ приведены ранги этих значений.

Таблица 2.5

Ранги IQ родителей и детей

Семья   Ранг IQ родителей   Ранг IQ детей   Семья   Ранг IQ родителей   Ранг 10 де-  
1   2   8, 5   11   11   15  
2   2   2   12   11   8, 5  
3   2   5   13   13   17, 5  
4   5   2   14   15   12  
5   5   5   15   15   8, 5  
6   5   8, 5   16   15   17, 5  
7   8   12   17   17, 5   15  
8   8   2   18   17, 5   20  
9   8   5   19   19, 5   19  
10   11   12   20   19, 5   15  

Процедура ранжирования лежит в основе многих непараметрических методов статистики, поэтому желательно владеть навыками ранжирования в совершенстве.

Многие из непараметрических методов чувствительны к наличию связанных рангов. Связанные ранги могут существенно повлиять на получаемые резуль­таты статистического анализа. Для их учета во многие расчетные формулы приходится вносить различные корректирующие поправки5.

5 К сожалению, авторы многих учебных пособий по статистике и математическим методам в психологии обходят стороной вопрос связанных рангов. О существовании данной проблемы либо не упоминается, либо наличие связанных рангов в приводимых примерах игнорируется и вычисления проводятся по нескорректированным формулам.

 

2.4. «451° ПО ФАРЕНГЕЙТУ»6,

ФОРД», «ФИАТ», «ТОЙОТА»,

ИЛИ ТЕСТ х2ДЛЯ ЕДИНСТВЕННОЙ ВЫБОРКИ

Покупка машины — важный этап в жизни каждой семьи. По улицам изра­ильских городов бегает несколько десятков марок автомобилей на любой вкус, но если присмотреться, то создается впечатление, что некоторые марки встре­чаются чаще других. Для проверки этого предположения Анна и Даниил, со­бравшиеся обзавестись автомобилем, решили проверить, какие машины чаще всего встречаются на улицах их города. При этом они договорились фиксиро­вать не конкретные марки машин, а то, откуда машина «родом», — Америка (США), Европа, Юго-Восточная Азия (Япония и Южная Корея) или другое (Россия, Индия, Китай и др.). Случайным образом было проверено 80 машин, которые распределились в зависимости от места производства следующим образом (табл.3.1).

Таблица 3.1

По странам-производителям

Место выпуска   Америка   Европа   Азия   Другое   Итого  
Теоретическое количество   20   20   20   20   80  
Эмпирическое количество   17   23   32   8   80  

Дальнейший алгоритм действий прост.

Формулируем нулевую и альтернативную гипотезы и задаем уровень значи­мости α =0, 05.

Н0: Все страны-производители машин представлены одинаковым образом (вероятность встретить на дороге машину, произведенную, например, в США, равна вероятности встретить машину, произведенную в Европе или в Юго-Восточной Азии, и т. д.).

Н1: Различные страны-производители машин представлены неодинаковым образом (вероятность встретить машину, произведенную в США, не равна вероятности встретить машину, произведенную в Европе, в Юго-Восточной Азии и т. д.).

Затем вычисляется сумма отклонений между наблюдаемыми и теоретиче­скими значениями по формуле:

где Оj — наблюдаемые (observed), или эмпирические, значения (частоты) для каждой из категорий таблицы 3.2; Еj — ожидаемые (expected), или теоретиче­ские, значения (частоты) для каждой из категорий таблицы 3.2; k — количест­во категорий в таблице 3.2.

С учетом введенных обозначений перейдем от таблицы 3.2 к таблице 3.3.

Подставим соответствующие значения Оj и Еj в расчетную формулу:

 

Таблица 3.3

СТУДЕНТЫ ГОЛОСУЮТ НОГАМИ, ИЛИ ТЕСТ ФРИДМАНА

Уже знакомый нам преподаватель предположил, что одни занятия студенты прогуливают чаще, а другие — реже. Он связался с другими преподавателями и в конце семестра получил данные о числе пропусков занятий у студентов своей группы еще по двум предметам; Полученные результаты приведены в таблице 5.2. Таблица содержит сведения о числе пропусков занятий для сту­дентов одной группы по трем предметам: А, В, С.

Можно ли на основании полученных данных утверждать, что студенты пропускают занятия выборочно, в зависимости от изучаемого предмета?

Ответ на этот вопрос может быть получен несколькими путями. Первый путь связан с попарным сравнением числа пропусков по предметам А, В, С между собой. Для этого потребуется трижды использовать, например, тест Вилкоксона.

Существует другая возможность, предложенная Фридманом. Тест Фридмана позволяет сравнивать результаты трех и более измерений, полученных на одной и той же выборке. С его помощью можно определить, отличаются ли получен­ные результаты друг от друга, без выявления направления отличий3.

3 В общем случае тест Фридмана рассматривается как непараметрический аналог двухфакторного дисперсионного анализа (Two-way ANOVA by ranks). Он позволяет оценить эффект воздей­ствия двух факторов на измеряемую величину. В нашем примере измеряемая величина — число пропусков занятий. Она находится под воздействием двух факторов. Первый фактор - «предме­ты/ преподаватели», имеющий три уровня. Второй фактор - «студенты», имеющий 20 уровней.

Таблица 5.2

Число пропусков занятий по предметам А, В и С

Студент

 

 

Предметы

 

Предметы

 

Студент

 

Предметы

 

А В С А В С
1   3   5   7   11   2   4   1  
2   5   2   3   12   2   0   3  
3   2   6   4   13   5   3   0  
4   6   7   5   14   0   3   3  
5   7   1   3   15   3   7   5  
6   5   0   2   16   0   5   4  
7   0   4   3   17   3   4   6  
8   4   5   6   18   1   6   4  
9   1   2   3   19   3   5   3  
10   5   7   7   20   5   1   2  

 

Тест Фридмана, как и тест Вилкоксона, также использует процедуру ранжирования результатов измерений, но ранжирование происходит не по верти­кали, как в тесте Вилкоксона, а по горизонтали, от измерения к измерению. Например, первый студент по предмету А пропустил 3 занятия, по предмету В — 5 занятий, по предмету С — 7 занятий. Если эти результаты проранжировать, то получим ранги 1, 2, 3 (первый ранг приписывается наименьшему значению).

Перепишем таблицу 5.2 с указанием рангов для каждого студента. Получим таблицу 5.3, в которой выделены значения рангов для каждого студента.

Если предположить, что число пропусков мало меняется от предмета к предмету, то суммы рангов для каждого из столбцов также должны мало отличаться друг от друга. В том случае, если одни предметы пропускаются чаще, а другие реже, суммы рангов в каждом из столбцов будут существенно отличаться друг от друга.

Мерой отличия сумм рангов друг от друга является значение Х2 r, вычисляемое по следующей формуле:

где N — число строк в таблице (размер выборки); k — число столбцов в таблице (количество измерений); Rj — сумма рангов, соответственно, для первого, второго и третьего столбцов.

Таблица 5.3

Число пропусков занятий по предметам А, В, С и их ранги

 

Найденное значение Х2 r эмпирсравнивается с критическим значением Х2 r критич, которое находится по уже знакомой таблице для теста Х2(табл. 2, Приложение 2) для выбранного уровня значимости а и числа степеней свободы df =( k -1).

В том случае, если Х2 r эмпирменьше Х2 r критич. нет оснований, чтобы отвергнуть нулевую гипотезу.

В том случае, Х2 r эмпир больше или равно Х2 r критич, нулевая гипотеза отвергается и принимается альтернативная.

Итак, выбираем уровень значимости α = 0, 05 и формулируем нулевую и альтернативную гипотезы.

Н0: Пропуски студентами занятий носят случайный характер и не опреде­ляются изучаемым предметом.

Н1: Пропуски студентами занятий носят неслучайный характер и определя­ются тем, какой предмет они изучают (двусторонняя критическая область).

По данным таблицы 5.3, имеем:

Подставляем эти значения в формулу для вычисления Х2 r:

 

Так как Х2 r эмпир= 2, 80 меньше Х2 r критич = 5, 99, нет оснований, чтобы отвергнуть нулевую гипотезу. Пропуски студентами занятий носят случайный характер и не определяются изучаемым предметом.

Сейчас еще один пример.

В ходе одного из экспериментов по когнитивной психологии фиксировалось время (в минутах), которое требуется лабораторной мыши для выхода из лаби­ринта в четырех различных экспериментальных условиях.

Для группы из четырех мышей были получены следующие значения времени в зависимости от экспериментальных условий А, В, С, D (табл. 5.4).

Таблица 5.4

От условий эксперимента

 

 

 

Условия эксперимента

 

А В С D  
Мышь 1   5   3   2   4  
Мышь 2   4   3   2   5  
Мышь 3   6   2   3   5  
Мышь 4   6   4   3   5  

Проранжируем результаты в каждой строке, запишем их в новую таблицу (табл. 5.5) и найдем сумму рангов для каждого столбца.

Таблица 5.5

Значения ожидаемых частот

 

Наркоманы   Работающие   Безработные   Итого  
Женатые     224x125 Е11= 450 =62, 2   226x125 Е12= 450 =62, 8     125  
Разведенные     224x162 Е21= 450 =80, 6   226x162 Е22=  450 =81, 4     162  
Не состоявшие в браке   224x163 Е31=  450 =81, 1   226x163 Е32= 450  =81, 9     163  
Итого   224   226   450  

Подставим значения наблюдаемых и ожидаемых частот в формулу для вычисления Х2:

В табл. 2 находим значение Х2критич для α =0, 05 и числа степеней свободы

df =( r -1)( k -1)=(3-1)(2-1)=2: Х2критич =5, 99.

Поскольку Х2эмпир > Х2критич. нулевая гипотеза отвергается и принимается альтернативная. Семейное положение работающих мужчин-наркоманов отличается от семейного положения безработных мужчин-наркоманов.

 

 

ВКЛЮЧАЕМ КОМПЬЮТЕР...

В переменной «Происхождение» (origin) означим Израиль как 1, все другие страны как 2. Переменная «Блондинка» (blond) содержит сведения о цвете волос: 1 — блондинка, 0 — нет. Дальнейшая последовательность действий и получаемый результат показаны на рис. 6.1-6.36.

6 Программа SPSS предоставляет большой набор возможностей по работе с таблицами сопряженности. Рассмотрение их в полном объеме выходит за рамки этой книги.

Рис. 6.1. Выбор требуемой статистической процедуры

Рис. 6.2. Тест Х2 для двух независимых выборок: необходимые действия и настройки

Рис. 6.3. Тест Х2 для двух независимых выборок: результат

Рис. 6.3. Окончание

 

Рассмотрим еще один пример, посвященный семейному положению работающих и неработающих наркоманов. В случае больших выборок результаты в расчетной таблице зачастую удобнее представлять не в виде абсолютных значений, а в виде процентов. На рис. 6.4 и 6.5 показано, как использовать эту возможность.

Рис. 6.4. Тест Х2 для двух независимых выборок: необходимые действия и настройки

Рис. 6.5. Тест Х2 для двух независимых выборок: результат (случай большой выборки)

Общий вид расчетной таблицы

    Храпят   Не храпят   Итого  
Предпочитают спать на спине   8 А   3 В   11 (А+В)  
Предпочитают спать не на спине   2 С   9 D   11 (C+ D)  
Итого   10 (А+C)   12 (В+D)   22  

Идея точного теста Фишера в следующем.


Поделиться:



Последнее изменение этой страницы: 2019-05-18; Просмотров: 85; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.125 с.)
Главная | Случайная страница | Обратная связь