Определение надежности теста

⇐ ПредыдущаяСтр 31 из 58Следующая ⇒

Тест обычно считается надежным, если с его помощью получаются одни и те же показатели для каждого обследуемого при повторном тестировании.

В психометрике термин надежность имеет два значения. На одном из них — на- дежности по внутренней согласованности — мы не будем останавливаться под- робно, отсылая читателя к соответствующим справочникам и руководствам1, от- метив только, что требование к внутренней согласованности теста не случайно. Вполне естественно считать, что если некоторая переменная измеряется частью теста, то другие его части, не будучи согласованными с первой, измеряют нечто другое. Для того чтобы быть валидным, тест должен быть согласованным. Суще- ствует несколько способов определения надежности.

Надежност ь ретестовая — предполагает повторное предъявление того же само- го теста тем же испытуемым и примерно в тех же условиях, что первоначальное, а затем установление корреляции между двумя рядами данных. При использовании этого способа определения надежности нужно отдавать себе отчет в том, что испыту- емые могут запомнить свои ответы и воспроизвести их во второй раз, поэтому по- вторное тестирование должно быть отделено от первого более-менее значительным временным интервалом, обычно не менее месяца. Некоторые психологи настаи- вают на интервале между тестированиями не менее 6 месяцев (Клайн, 1994).

Мы не считаем требование П. Клайна об обязательном 6 месячном интервале между тестированиями безусловным. В подтверждение сошлемся на результаты исследования канадских психологов. С помощью личностного опросника были обследованы 302 студента с интервалом в 3 недели. Условия повторного тестиро- вания варьировались. Стандартный коэффициент ретестовой надежности, равный

0, 872, не отличался от коэффициентов надежности, полученных в трех группах испытуемых, получавших одну из трех специфических инструкций: 1) продумы- вать ответы; 2) использовать воспоминания о прошлых ответах; 3) выполнять параллельную форму теста. Было обнаружено, что стандартный коэффициент надежности выше коэффициента, полученного при инструкции воспроизводить прошлые ответы.

Наименьшим удовлетворительным значением для ретестовой надежности яв- ляется коэффициент корреляции, равный 0, 7. Правда, для некоторых тестов этот показатель может быть несколько ниже.

Изданный под нашей редакцией перевод с английского книги П. Клайна «Справочное руководство

по конструированию тестов» (Киев, 1994), пока, к сожалению, единственная на русском языке дос- таточно подробная работа по конструированию тестов, может удовлетворить интерес читателя к этой проблеме.

16 2 Глава 3. Психометрические основы психодиагностики: основные этапы...

Надежност ь параллельных форм предусматривает создание эквивалентных форм опросника и предъявление их одним и тем же испытуемым для того, чтобы затем оценить корреляцию между полученными результатами. Основная пробле- ма, препятствующая широкому распространению этого способа определения на- дежности, — необходимость подготовки двух наборов заданий, что чрезвычайно сложно, поскольку требуются убедительные доказательства их эквивалентности.

Надежност ь частей теста определяется путем деления опросника на две час- ти (обычно на четные и нечетные задания), после чего и рассчитывается корреля- ция между этими частями. Обычно к этому способу определения надежности ре- комендуется прибегать только в тех случаях, когда необходимо быстро получить результаты.

Для определения ретестовой надежности и надежности параллельных форм корреляции подсчитывается на основе коэффициента произведения моментов Пирсона. Эта процедура подсчета рассматривалась нами ранее, в разделе, посвя- щенном анализу заданий. Для определения надежности частей теста ранее рассчи- танный коэффициент произведения моментов Пирсона (между двумя полови- нами теста) используется в формуле Спирмена—Брауна. Формула Спирмена— Брауна имеет вид:

где — надежность, оцененная для всего опросника; — корреляция между дву- мя половинами опросника.

Например, если коэффициент корреляции произведения моментов Пирсона между двумя половинами теста равен 0, 80, то:

Подчеркнем, что наилучшей процедурой определения надежности является проведение повторных исследований через более или менее значительные времен- ные интервалы.

Все исследования надежности должны выполняться на достаточно больших (рекомендуется 200 и более испытуемых) и репрезентативных выборках. Надеж- ность — важная характеристика теста, но сама по себе ценности не представляет. Она необходима для достижения валидности.

Факторны й анализ

Во многих случаях перед разработчиком теста встает задача «сжатия» информа- ции или, иначе говоря, компактного описания изучаемых явлений при наличии множества наблюдений или переменных. Факторный анализ как раз и является методом снижения размерности изучаемого многомерного явления.

Напомним читателю, что факторный анализ зародился в психологической на- уке и связан в первую очередь с исследованиями Ч. Спирмена (Spearman, 1904). Последующими работами таких выдающихся психологов, как Т. Келли, Л. Тер-

3.7. Факторный анализ 163

стоуна, Дж. Гилфорда и Р. Кэттелла, а также математиков К. Пирсона, К. Холзин- гера, Г. Хармана и др., был достигнут значительный успех в математическом обо- сновании факторного анализа, и этот метод начинает активно применяться в раз- личных науках.

Как хорошо известно, одной из типичных форм представления эксперимен- тальных данных является матрица, столбцы которой соответствуют, например, различным тестам (заданиям тестов), а строки — отдельным результатам (значе- ниям), полученным в результате их применения. Визуальный анализ сколь-ни- будь значительной по величине матрицы невозможен, а поэтому требуется исход- ную информацию сжать, извлечь из нее наиболее важное, существенное. Прежде всего исследователю необходимо получить корреляционную матрицу (подсчет ко- эффициентов корреляции).

Воспользуемся в качестве примера исследованием Л. Айкена (Aiken, 1996). В этом исследовании 90 студентов колледжа просили оценить преподавателя с по- мощью пятибалльной шкалы (1 — низший балл, 5 — высший) по 11 параметрам: тактичность, вежливость, креативность, доброжелательность, увлеченность сво- им предметом, знание предмета, способность мотивировать студентов, организо- ванность, терпеливость, подготовленность и пунктуальность.

Если поделить матрицу корреляций рейтинговых оценок, данных студентами по списку качеств личности преподавателя (табл. 3.4) на два равных треугольни- ка, проведя диагональ из левого верхнего угла в правый нижний угол, то можно увидеть, что это — симметричная матрица, в которой первая верхняя строка со- стоит из тех же оценок, что и первая колонка. Аналогично вторая строка включает те же самые элементы, что и вторая колонка, и т. д. Также нужно обратить внима- ние на то, что все числа на основной диагонали (начиная сверху слева вплоть до чисел внизу справа) равны +1, 00 — это предполагаемая корреляция каждого за- дания шкалы с самим собой.

В психологическом тестировании цель факторного анализа заключается в том, чтобы найти несколько фундаментальных факторов, которые объясняли бы боль- шую часть дисперсии в группе оценок по различным тестам или другим психомет- рическим измерениям. В вышерассмотренном примере — 11 переменных, поэто- му для него задача факторного анализа заключается в том, чтобы найти матрицу факторных нагрузок или корреляции между факторами и заданиями шкалы. Су- ществует несколько процедур факторного анализа, но все они предполагают две стадии: 1) факторизацию матрицы корреляций, с тем чтобы получилась первона- чальная факторная матрица; 2) вращение факторной матрицы, с тем чтобы обна- ружить наиболее простую конфигурацию факторных нагрузок (см. табл. 3.4).

Стадия факторизации в этом процессе призвана определить количество фак- торов, необходимых для объяснения связей между различными тестами, и обес- печивает получение первичных оценок нагрузки (веса) каждого теста по каждо- му фактору. Вращение факторов необходимо для того, чтобы сделать их более по- нятными (интерпретируемыми) с помощью создания конфигурации факторов, в которой совсем немного тестов имеют высокие нагрузки, тогда как большая часть тестов имеют низкие нагрузки по любому фактору.

164 Глава 3. Психометрические основы психодиагностики: основные этапы...

Таблица 3.4

Образе ц матрицы корреляций между 11 заданиями шкалы

для оценки личности преподавателя

Задани е

1, 000

0, 727

0, 424

0, 573

0, 343

0, 294

0, 458

0, 200

0, 425

0, 091

00, 78

0, 727

1, 000

0, 304

0, 620

0, 287

0, 258

0, 363

0, 075

0, 459

0, 115

0, 127

0, 424

0, 304

1, 000

0, 470

0, 510

0, 080

0, 691

0, 206

0, 304

0, 129

0, 112

0, 573

0, 620

0, 470

1, 000

0, 336

0, 195

0, 390

0, 061

0, 528

0, 026

0, 022

0, 343

0, 287

0, 510

0, 336

1, 000

0, 171

0, 638

0, 374

0, 203

0, 243

0, 244

0, 294

0, 258

0, 080

0, 195

0, 171

1, 000

0, 108

0, 227

0, 159

0, 490

0, 430

0, 458

0, 363

0, 691

0, 390

0, 638

0, 108

1, 000

0, 218

0, 314

0, 108

0, 065

0, 200

0, 075

0, 206

0, 061

0, 374

0, 227

0, 218

1, 000

0, 085

0, 524

0, 421

0, 425

0, 459

0, 304

0, 528

0, 203

0, 159

0, 314

00, 85

1, 000

0, 114

0, 187

1 0

0, 091

0, 115

0, 129

0, 026

0, 243

0, 490

0, 108

0, 524

0, 114

1, 000

0, 611

1 1

0, 078

0, 127

0, 112

0, 022

0, 244

0, 430

0, 065

0, 421

0, 187

0, 611

1, 000

Одна из наиболее известных процедур факторизации — метод главных осей

(principa l axis), а самая популярная процедура вращения — варимакс вращение 1.

Из табл. 3.5 видно, что выделяются три фактора, они представлены в колон- ках, обозначенных А, В, С. Величины, записанные под колонкой каждого факто- ра, — корреляции или нагрузки каждого из 11 заданий по этому фактору.

Например, задание 1 имеет нагрузку по фактору A равную 0, 754; - 0, 271 по фак- тору В; и 0, 250 по фактору С. Сумма квадратов нагрузок по каждому из факторов позволяет определить долю дисперсии этого задания. Таким образом, доля дис- персии задания 1 равна:

(0.754)2 +(-0, 271)2 +(0, 250)2 =0, 704.

Это означает, что 70, 4 % вариаций показателей по заданию 1 объясняется дей- ствием этих трех факторов.

Факторно-аналитический подход позволяет также оценить надежность теста. Как известно, полная дисперсия теста равна сумме дисперсий для общих факто- ров, плюс дисперсии специфических факторов, плюс дисперсия погрешности. Следовательно, если мы осуществим факторный анализ теста, возведем в квадрат и суммируем нагрузки его факторов, то мы получим его надежность, поскольку нагрузки факторов представляют корреляцию теста с общими или специфиче- скими факторами. Однако следует помнить, что такой способ установления на- дежности более всего подходит для уже факторизованного теста, нежели для тес- тов, которые могут измерять широкий набор разных факторов, часть которых мо- гут и не входить в батарею изучаемых исследователем.

По вполне понятным причинам здесь опущены этапы ручной факторизации матрицы, поскольку в настоящее время для этой цели используются различные компьютерные программы. Для читателя, желающего ознакомиться подробно с процедурой факторизации матрицы и ее вращением, рекомен- дуем обратиться к книге: Окунь Я. Факторный анализ / Пер. с польск.; Под ред. Г. 3. Давидовича. — М.: Статистика, 1974.

3.7. Факторный анализ 16 5

Таблица3.5

⇐ Предыдущая 26 27 28 29 303132 33 34 35 Следующая ⇒

Последнее изменение этой страницы: 2019-05-18; Просмотров: 277; Нарушение авторского права страницы