Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Нормально распределенного диагностического параметра X



 

Операции по анализу распределения тестовых баллов, построе­нию тестовых норм и проверке их репрезентативности. Завершая этот раздел, кратко перечислим действия, которые последовательно должен произвести психолог при построении тестовых норм.

1. Сформировать выборку стандартизации (случайную или стра­тифицированную по какому-либо параметру) из той популяции, на которой предполагается применять тест. Провести на каждом ис­пытуемом из выборки тест в сжатые сроки (чтобы устранить иррелевантный разброс, вызванный внешними событиями, происшедшими за время обследования).

2. Произвести группировку сырых баллов с учетом выбранного интервала квантования (интервала равнозначности). Интервал опре­деляется величиной W/m, где W=x max — х max; m - количество интерва­лов равнозначности (градаций шкалы).

3. Построить распределение частот тестовых баллов (для задан­ных интервалов равнозначности) в виде таблицы и в виде соответ­ствующих графиков гистограммы и кумуляты.

4. Произвести расчет среднего арифметического значения и стандар­тного отклонения, а также асимметрии и эксцесса с помощью компьюте­ра. Проверить гипотезы о значимости асимметрии и эксцесса. Сравнить результаты проверки с визуальным анализом кривых распределения.

5. Произвести проверку нормальности одного из распределений с помощью критерия Колмогорова (при n < 200 с помощью более мощ­ных критериев) или произвести процентильную нормализацию с пе­реводом в стандартную шкалу, а также линейную стандартизацию и сравнить их результаты (с точностью до целых значений стандарт­ных баллов).

6. Если совпадения не будет - нормальность отвергается; в этом случае произвести проверку устойчивости распределения расщепле­нием выборки на две случайные половины. При совпадении норма­лизованных баллов для половины и для целой выборки можно счи­тать нормализованную шкалу устойчивой.

7. Проверить однородность распределения по отношению к варь­ированию заданного популяционного признака (пол, профессия и т. п.) с помощью критерия Колмогорова. Построить в совмещенных коор­динатах графики гистограммы и кумуляты для полной и частной вы­борок. При значимых различиях разбить выборку на разнородные подвыборки.

8. Построить таблицы процентильных и нормализованных тесто­вых норм (для каждого интервала равнозначности сырого балла). При наличии разнородных подвыборок для каждой из них должна быть своя таблица.

9. Определить критические точки (верхнюю и нижнюю) для до­верительных интервалов (на уровне Р < 0, 01) с учетом стандартной ошибки в определении среднего значения.

10. Обсудить конфигурацию полученных распределений с учетом предполагаемого механизма выполнения того или иного теста.

11. В случае негативного результата: отсутствия устойчивых норм для шкалы с заданным числом градаций (с заданной точнос­тью прогноза критериальной деятельности) - осуществить обсле­дование более широкой выборки или отказаться от использования, данного теста.

НАДЕЖНОСТЬ ТЕСТА

В дифференциальной психометрике проблемы валидности и надежности тесно взаимосвязаны, тем не менее мы последуем традиции раздельного изложения методов проверки этих важнейших пси­хометрических свойств теста.

Надежность и точность. Как уже отмечалось в разделе 3.1, общий разброс (дисперсию) результатов произведенных измерений мож­но представить как результат действия двух источников разнообразия: самого измеряемого свойства и нестабильности измерительной процедуры, обусловливающей наличие ошибки измерения. Это пред­ставление выражено в формуле, описывающей надежность теста и виде отношения истинной дисперсии к дисперсии эмпирически заре­гистрированных баллов:

 

(3.2.1)

 

Так как истинная дисперсия и дисперсия ошибки связаны оче­видным соотношением, формула (3.2.1) легко преобразуется в фор­мулу Рюлона:

 

(3.2.2)

 

где а - надежность теста; . -дисперсия ошибки.

Величина ошибки измерения - обратный индикатор точности из­мерения. Чем больше ошибка, тем шире диапазон неопределенности на шкале (доверительный интервал индивидуального балла), внутри которого оказывается статистически возможной локализация истинного балла данного испытуемого. Таким образом, для проверки гипо­тезы о значимости отличия балла испытуемого от среднего значения оказывается недостаточным только оценить ошибку среднего, нужно еще оценить ошибку измерения, обусловливающую разброс в поло­жении индивидуального балла (рис. 7).

 

 

Рис. 7. Соотношение распределений Sm – стандартное отклонение эмпирического среднего, St – стандартное отклонение ошибки

Как же определить ошибку измерения? На помощь приходят кор­реляционные методы, позволяющие определить точность (надеж­ность) через устойчивость и согласованность результатов, получае­мых как на уровне целого теста, так и на уровне отдельных его пун­ктов.

Надежность целого теста имеет две разновидности.

1. Надежность-устойчивость (ретестовая надежность). Измеряется с помощью повторного проведения теста на той же выборке испыту­емых, обычно через две недели после первого тестирования. Для ин­тервальных шкал подсчитывается хорошо известный коэффициент корреляции произведения моментов Пирсона:

где х1i. - тестовый балл i-го испытуемого при первом измерении;

х2i. - тестовый балл того же испытуемого при повторном измерении;

n - количество испытуемых.

Оценка значимости этого коэффициента основывается на несколь­ко иной логике, чем это обычно делается при проверке нулевой гипо­тезы - о равенстве корреляций нулю. Высокая надежность достига­ется тогда, когда дисперсия ошибки оказывается пренебрежительно малой. 'Относительную долю дисперсии ошибки легко определить по формуле

 

(3.2.4)

 

Таким образом, для нас существеннее близость к единице, а не отдаленность от нуля. Обычно в тестологической практике редко уда­ется достичь коэффициентов, превышающих 0, 8. При г = 0, 75 отно­сительная доля стандартной ошибки равна . Этой ошиб­кой, очевидно, нельзя пренебречь. При такой ошибке эмпирически полученное отклонение индивидуального тестового балла от средне­го по выборке оказывается, как правило, завышенным. Для того что­бы выяснить «истинное» значение тестового балла индивида, приме­няется формула

(3.2.5)

где - истинный балл; '

хi — эмпирический балл i-го испытуемого;

r - эмпирически измеренная надежность теста;

- среднее для теста.

Предположим, испытуемый получил балл IQ по шкале Стэнфорда.-Бине, равный 120 нормализованным очкам, М = 100, г = 0, 9. Тог­да истинный балл = 0, 9 120 + 0, 1 100 =118.

Конечно, требование ретестовой надежности является коррект­ным лишь по отношению к таким психическим характеристикам ин­дивидов, которые сами являются устойчивыми во времени. Если мы создаем тест для измерения эмоциональных состояний (бодрости, тре­воги и т. д.), то, очевидно, требовать от него ретестовой надежности бессмысленно: у испытуемых быстрее изменится состояние, чем они забудут свои ответы по первому тестированию.

Для шкал порядка в качестве меры устойчивости к перетестиро­ванию используется коэффициент ранговой корреляции Спирмена:

, (3.2.6)

 

где di — разность рангов /-го испытуемого в первом и втором ранго­вом ряду.

С помощью компьютера определяется более надежный коэффи­циент ранговой корреляции Кендалла (1975).

2. Надежность- согласованность (одномоментная надежность).

Эта разновидность надежности не зависит от устойчивости, име­ет особую содержательную и операциональную природу. Простей­шим способ ее измерения состоите коррелировании параллельных форм теста (Анастази Д., 1982, кн. 1, с. 106). Чаще всего параллель­ные формы теста получают расщеплением составного теста на «чет­ную» и «нечетную» половины: к первой относятся четные пункты, ко второй - нечетные. По каждой половине рассчитываются суммар­ные баллы и между двумя рядами баллов по испытуемым определя­ются допустимые (с учетом уровня измерения) коэффициенты кор­реляции. Если параллельные тесты не нормализованы, то предпоч­тительнее использовать ранговую корреляцию. При таком расщеп­лении получается коэффициент, относящийся к половинам теста. Для того чтобы найти надежность целого теста пользуются формулой Спирмена - Брауна:

 

(3.2.7)

 

где rx - эмпирически рассчитанная корреляция для половин.

Делить тест на две половины можно разными способами, и каж­дый раз получаются несколько разные коэффициенты (Аванесов В. С., 1982, с. 122), поэтому в психометрике существует способ оценки син­хронной надежности, который соответствует разбиению теста на та­кое количество частей, сколько в нем отдельных пунктов. Такова фор­мула Кронбаха:

 

(3.2.8)

 

где а - коэффициент Кронбаха;

k- количество пунктов теста;

- дисперсия по j-му пункту теста;

- дисперсия суммарных баллов по всему тесту.

 

Обратите внимание на структурное подобие формулы Кронбаха (3.2.2) и формулы Рюлона (3.2.8).

Несколько раньше была получена формула Кьюдера - Ричардсо­на, аналогичная формуле Кронбаха для частного случая - когда отве­ты на каждый пункт теста интерпретируются как дихотомические переменные с двумя значениями (1 и 0):

 

(3.2.9)

где KR20 - традиционное обозначение получаемого коэффициента;

-дисперсия i-и дихотомической переменной, какой является

i-й пункт теста; р = , q = 1 - p

В 1957 г. Дж. Ките предложил следующий критерий для оценки статистической значимости коэффициента a:

 

(3.2.10)

 

где - эмпирическое значение статистики % квадрат с п-1 степе­нью свободы;

k - количество пунктов теста;

n - количество испытуемых;.

a - надежность.

Формулы (3.2.8) и (3.2.9) позволяют оценить взаимную согласо­ванность пунктов теста, используя при этом только подсчет диспер­сий. Однако коэффициенты а и KR2I> позволяют оценить и среднюю корреляцию между i-м и j-м произвольными пунктами теста, так как связаны с этой средней корреляцией следующей формулой:

 

11)

 

где - средняя корреляция между пунктами теста. Легко увидеть идентичность формулы (3.2.11) обобщенной формуле Спирмена - Бра­уна, позволяющей прогнозировать повышения синхронной надежно­сти теста с увеличением количества пунктов теста в k раз (Аванесов В. С., 1982, с. 121). Из этой формулы видно, что при больших k малое значение может сочетаться с высокой надежностью. Пусть = 0, 1, a k =100, тогда по формуле (3.2.11)

 

Широкое распространение компьютерных программ факторного анализа для исследования взаимоотношений между пунктами теста (по одномоментным данным) привело к обоснованию еще одной до­статочно эффективной формулы надежности теста, которой легко воспользоваться, получив стандартную распечатку компьютерных результатов факторного анализа по методу главных компонент:

 

(3.2.12)

 

где θ - коэффициент, получивший название тета-надежности теста;

k - количество пунктов теста;

λ 1 - наибольшее значение характеристического корня матрицы

интеркорреляций пунктов (наибольшее собственное значение, или аб­солютный вес первой главной компоненты).

Как и предыдущие формулы, формула (3.2.12) также относится к оценке надежности теста, направленного на измерение одной характе­ристики. Но, кроме того, она применима и для многофакторного теста, хотя и нуждается в пересчете после первоначального отбора пунктов, релевантных фактору (после того, как на основании многофакторного анализа отобраны пункты по одному фактору, снова проводится фак­торный анализ - только для этих отобранных пунктов).

Надежность отдельных пунктов теста. Надежность теста обес­печивается надежностью пунктов, из которых он состоит. Чтобы по­высить ретестовую надежность теста в целом, надо отобрать из ис­ходного набора пунктов, апробируемых в пилотажных психометри­ческих экспериментах, такие пункты, на которые испытуемые дают устойчивые ответы. Для дихотомических пунктов (типа «решил - не решил», «да - нет») устойчивость удобно измерять с использованием четырехклеточной матрицы сопряженности:

Тест 1

 

Да Нет

a B
c D

Да Тест 2

Нет

 

Здесь в клеточке а суммируются ответы «Да», данные испытуе­мым при первом и втором тестировании, в клеточке b - число случа­ев, когда испытуемый при первом тестировании отвечал «Да», а при втором - «Нет» и т. д. В качестве меры корреляции вычисляется фи-коэффициент:

 

(3.2.13)

 

Как известно, значимость фи-коэффициента определяется с по мощью критерия хи-квадрат:

 

(3.2.14)

 

Если вычисленное значение хи-квадрат выше табличного с од­ной степенью свободы, то нулевая гипотеза (о нулевой устойчивос­ти) отвергается. Удобство использования фи-коэффициента состоит в том, что он одновременно оценивает степень оптимальности данного пункта теста по силе (трудности): фи-коэффициент оказывает­ся тем меньшим, чем сильнее частота ответов «да» отличается от частоты ответа «нет».

Кроме того, сама четырехклеточная матрица позволяет просле­дить возможную несимметричность в устойчивости ответов «да» и «нет» (это важнее для задач, чем для вопросов: например, может ока­заться, что все испытуемые, уже решившие однажды данную задачу, решают ее при повторном тестировании; это наводит на мысль о том, что при втором тестировании происходит сбережение опыта, приоб­ретенного при первом тестировании). Выявленные в результате тако­го анализа неустойчивые и неинформативные (слишком сильные или слишком слабые) пункты должны быть исключены из теста. Пункты следует считать недостаточно устойчивыми, если на репрезентатив­ной выборке величина превышает 0, 71. При этом φ < 0, 5.

Для т<? го чтобы повысить одномоментную (синхронную) надеж­ность теста, следует из исходной пилотажной батареи пунктов отбро­сить те, которые плохо согласованы с остальными[12]. В отсутствие ком­пьютера согласованность для пунктов также очень просто определяет­ся с помощью четырехклеточной матрицы. В этом случае в первом стол­бце суммируются ответы испытуемых из «высокой».группы (пр величине суммарного балла), во втором столбце - из «низкой».

 

Высокая Низкая

A B
C D

Да

Нет

 

При нормальном распределении частот суммарных баллов «вы­сокая» и «низкая» группы отсекаются справа и слева 27%-ными мар­гинальными квантилями (рис. 8).

Для оценки согласованности с суммарным баллом применяется полная[13] или упрощенная формула фи-коэффициента:

 

(3.2.15)[14]

 

где - количество ответов «верно» («да») на i-й пункт теста;

N* - сумма всех элементов матрицы;

N* = n • 0, 54 где n - объём выборки;

Pi = а + b - При включении в эстремальную группу 1/3 выборки

N* = 0, 66 • n.

 

Рис. 8. Квантили «высокой» и «низкой» группы на графике распределения тестовых баллов

 

В некоторых случаях подобный анализ позволяет уточнить ключ для пункта: если пункт получает значимый положительный фи-коэф­фициент, то ключ определяется значением «+1», если пункт получает значимый отрицательный фи-коэффициент значением «-1». Если пункт получает незначимый фи-коэфф.ициент, то его целесообразно исключить из теста.

При ручных вычислениях фи-коэффициента удобно вначале с помощью формул (3.2.14) и (3.2.15) определить граничное значение значимого (по модулю) фи-коэффициента. Например, при объеме выборки в 100 человек и уровне значимости р < 0, 01 пороговое зна­чение вычисляется так:

 

(3.2.16)

 

При постоянном использовании компьютера при подсчете сум­марных баллов ключ для каждого пункта Q целесообразно опреде­лить в виде самого фи-коэффициента (или другого коэффициента корреляции), определенного при коррелировании ответов на пункт с сум­марным баллом. Тогда тестовый балл подсчитывается по формуле

 

(3.2.17)

где хi — суммарный балл i-го испытуемого;

- ответ «верно» (+1) или «неверно» (-1) i-го испытуемого на i-й пункт;

Сi- ключ для i-го пункта: С = +1 для прямого, С= -1 для обрат­ного.

Более чувствительный коэффициент, который также применяет­ся для дихотомических пунктов, - это точечный бисериальный коэф­фициент корреляции, учитывающий амплитуду отклонения индиви­дуальных суммарных баллов от среднего балла:

 

3.2.18)

 

где x* - сумма финальных баллов тех индивидов, которые дали утвердительный ответ на i-й пункт теста (решили i-ю задачу);

Sx - стандартное отклонение для суммарных баллов всех индиви­дов из выборки;

- стандартное отклонение по i-му пункту;

- средний балл по всем пунктам.

А. Анастази относит критерий внутренней согласованности тес­та к валидности (Анастази А., 1982, кн. 1, с. 143), однако если и мож­но в данном случае говорить о валидности, то только в смысле осо­бой внутренней валидности теста. Как правило, слишком высокая со­гласованность снижает внешнюю валидность теста по критерию (см. раздел 3.3). Если проверяется согласованность пунктов, составлен­ных одним автором (одним коллективом по стандартной инструкции), то выявление достаточного набора согласованных пунктов свидетель­ствует о внутренней валидности (согласованности) разработанного диагностического понятия (конструкта).

В компьютерных данных факторного анализа аналогом корреля­ции пункта с суммарным баллом является нагрузка пункта на веду­щий фактор («факторная валидность» в терминах А. Анастази). Если прибегать к геометрическому изображению нагрузки как проекции вектора-пункта на ось-фактор, то структура пунктов хорошо согласо­ванного теста предстанет в виде пучка векторов, плотно прилегаю­щих к фактору и вытянувшихся вдоль его оси (рис. 9).

 

Рис. 9. Векторная модель соотношения «прямых» и «обратных» эмпирических пунктов с релевантным (измеряемым) фактором и иррелевантными («шумовыми») факторами

 

Последовательность действий при проверке надежности:

1. Узнать, существуют ли данные о надежности теста, предпо­лагаемого к использованию, на какой популяции и в какой диагнос­тической ситуации проводилась проверка. Если проверки не было или признаки новых популяции и ситуации явно специфичны, про­вести заново проверку надежности с учетом указанных ниже воз­можностей.

2. Произвести повторное тестирование на всей выборке стан­дартизации и подсчитать все коэффициенты, как для целого теста, так и для его отдельных пунктов. Анализ полученных коэффициен­тов позволит понять, насколько пренебрежима ошибка измерения, дает ли данный тест интервальную шкалу (высокий r) или только диагностичен для крайних групп (высокий φ ), насколько устойчиво измеряемое свойство во времени (возможен ли статистический про­гноз - проекция тестового балла на будущее), в каких своих пунк­тах тест менее надежен (анализ этих пунктов позволяет психологи­чески осмыслить содержательный механизм взаимодействия пунк­тов с испытуемыми).

3. Если возможности обследования испытуемых ограниченны, произвести повторное тестирование только на части выборки (не ме­нее 30 испытуемых), подсчитать (вручную) ранговую или четырех-клеточную корреляцию для оценки внутренней согласованности и ста­бильности теста в целом.

ВАЛИДНОСТЬ ТЕСТОВ

 

Проблемы валидизации психологических тестов являются цент­ральными для дифференциальной психометрики, но, к сожалению, до сих пор решенными не до конца. Решение этой проблемы зависит не от статистического аппарата, а от уровня развития теоретического аппарата дифференциальной психологии.

Валидность и надежность. Валидность (или обоснованность) всякой процедуры измерения состоит в однозначности (устойчивос­ти) получаемых результатов относительно измеряемых свойств объек­тов, т, е. относительно предмета измерения. Отличие понятия валидности от надежности измерения удобно раскрывать с помощью раз­личения «объекта» и «предмета» измерения. Надежность - это устой­чивость процедуры относительно объектов. Надежность не обязательно предполагает валидность. В психологии довольно часто возникает такая ситуация, когда исследователь вначале предлагает определенную процедуру измерения, показывает ее надежность -способность устойчиво различать объекты, но вопрос о валидности остается открытым.

Если в сенсорной психофизике вопрос о валидности измерений оказывается в значительной степени затушеванным тем обстоятель­ством, что простейшие физические стимулы достаточно однозначно детерминируют измеряемые свойства ощущений, то в дифференци­альной психометрике значимость проблемы валидности резко возра­стает. Здесь ситуация подобна той, когда в психофизическом опыте испытуемому не указывают, по какому именно параметру следует срав­нивать стимулы. Пусть испытуемый А понял инструкцию так, что стимульные объекты надо сравнивать по весу, а испытуемый Б - по раз­меру. Если процедура измерения будет повторена по отношению к тем же объектам, то она даст вполне устойчивые данные относитель­но объектов, но не даст валидной информации ни о шкале ощущений «веса», ни о шкале ощущений «размера».

При измерении способностей предъявляемый тест отнюдь не обя­зательно актуализирует именно тот психический процесс, который предполагается измерить. Например, столкнувшись с уже встречав­шейся однажды задачей (например, с анаграммой «дзиканпр»), испы­туемый может начать запоминать просто то решение, к которому он уже однажды пришел (слово «праздник»), чем заново решать эту за­дачу. Здесь будет измеряться скорее уровень словесной памяти, чем уровень вербального интеллекта. Точно так же реальная валидность некоторых тестов раскрывается только в результате значительного опыта работы с ними. Например, доказано, что ряд тестов, внешне вы глядящих интеллектуальными, на деле измеряют скорее личностно-стилевые особенности индивида, чем операциональные возмож­ности интеллекта, например, методика «креативного поля» Д. Б. Бо­гоявленской.

Устойчивость теста относительно объектов (испытуемых) явля­ется необходимым, но не достаточным условием его устойчивости относительно измеряемых атрибутов (свойств) объектов. Надежность является необходимым, но не достаточным условием валидности. Отсюда вытекает основное соотношение психометрики:

 

валидность ≤ надежность.

 

Это означает, что валидность теста не может превышать его надеж­ность.

Данное соотношение, однако, неверно трактовать как указание на прямую пропорциональную связь валидности и надежности. По­вышение надежности отнюдь не обязательно приводит к повышению валидности[15]. В терминах А. Анастази валидность определяется ре­презентативностью теста относительно измеряемой области поведе­ния. Если эта область поведения складывается из разнообразных фе­номенов, то содержательная валидность теста автоматически требует представленности в нем моделей всех этих разнообразных феноме­нов. Возьмем глобальное понятие «речевая способность» (этому психолингвистическому термину в традиционной тестологии соответству­ет термин «вербальный интеллект»). Сюда относятся такие относи­тельно независимые друг от друга навыки, как навыки письма и чте­ния. Если заботиться о содержательной валидности соответствую­щего теста, то нужно ввести в него группы заданий на проверку этих довольно разных по своему операциональному составу компонентов вербального интеллекта. Вводя разнородные пункты и субшкалы (суб­тесты), мы обязательно сокращаем внутреннюю согласованность, од­номоментную надежность теста, но зато добиваемся существенного повышения валидности. Таким образом, для расширения области при­менения теста психодиагност должен избегать излишнего повыше­ния внутренней согласованности. Одновременно с этим снижением внутренних корреляций между различными пунктами теста (об этом уже говорилось в разделе 3.1) обязательно исчезает отрицательный эксцесс на кривой распределения тестовых баллов, и она все более приближается по форме к нормальной кривой.

Эмпирическая валидность. Если в случае с содержательной ва-лидностью оценка теста производится за счет экспертов (устанавли­вающих соответствие заданий теста содержанию предмета измере­ния), то эмпирическая валидность измеряется всегда с помощью ста­тистического коррелирования: подсчитывается корреляция двух ря­дов значений - баллов по тесту и показателей по внешнему параметру, избранному в качестве критерия валидности.

Прагматические традиции западной тестологии привязывали эм­пирическую валидность теста к внешним для психологии социально-прагматическим критериям. Эти критерии являются показателями, обладающими непосредственной ценностью для определенных об­ластей практики. Практика всегда имеет целью либо повысить, либо понизить эти показатели. Например, в области педагогической пси­хологии это «успеваемость» (которую надо повысить), в психологии труда это «производительность труда» и «текучесть кадров», в меди­цине - «состояние здоровья пациента», в психологии управления -«совместимость», «срабатываемость» коллектива, в юридической пси­хологии - «преступность» (которую надо понизить) и т. п.

Ориентируясь непосредственно на эти категории, психолог, пы­тающийся скоррелировать результаты теста с этими показателями, фактически решает сразу две задачи: задачу измерения валидности и задачу измерения практической эффективности своей психодиагнос­тической программы. Если получен значимый коэффициент корреля­ции, то можно считать, что решены с позитивным результатом сразу обе эти задачи. Но если корреляции не обнаружено, то остается нео­пределенность: либо невалидна сама процедура (тестовый балл не отражает, например, стрессоустойчивость оператора), либо неверна гипотеза о наличии причинно-следственной связи между психичес­ким свойством и социально значимым показателем (стрессоустойчивость не влияет на процент аварийных ситуаций).

Таким образом, социально-прагматические критерии являются комплексными: они позволяют измерить валидность-эффективность, но не каждое из этих двух свойств теста отдельно. На практике пси­холога часто ожидает и еще более сложная ситуация, когда заказчик требует от психолога на основании полученного диагноза сразу же определенных мер по вмешательству в ситуацию (отбор, консульти­рование, обучение и т. п.). В этом случае повышение показателей (достоверное по сравнению с контрольной группой) доказывает од­новременно и валидность-эффективность диагностики, и эффектив­ность самого вмешательства. А отрицательный результат дает еще большую неопределенность, так как оказывается невозможным от­делить неэффективность вмешательства от низкой валидности ди­агностики.

Ориентация на социально-прагматические критерии, приводящие к склейке понятий «валидности измерения» и «причинного прогноза по результатам измерения», бесспорно, сдерживала и продолжает сдер­живать развитие концептуального аппарата дифференциальной пси­хологии. При этом суть самого предмета измерения: измеряемого пси­хического свойства - оказывается вне фокуса внимания не только заказчика, но и самого психолога, превращающегося в этом случае в тестолога, которого не интересует, что именно он измеряет, главное лишь, чтобы от этого «нечто» перекидывался мостик к полезному эффекту, обеспечивающему психологу социальное признание.

Процедура эмпирической валидизации. Организация выборки при эмпирической валидизации зависит от временного статуса критерия. Если этот критерий - событие в прошлом (ретроспективная валидизация), то к участию в психодиагностическом обследовании доста­точно привлечь только тех испытуемых, которые оказались на экстремальных полюсах по этому критерию[16]. В результате применяется ме­тод экстремальных (контрастных) групп. Коррелирование с суммар­ным баллом по тесту оценивается с помощью бисериального коэф­фициента по формуле (3.2.17). При этом в статусе дихотомической переменной (на месте отдельного пункта) оказывается сам критерий валидности: x— сумма баллов по тесту, полученных «высокой» груп­пой по критерию; - стандартная ошибка критерия, связанная с численностью «высокой» (р) и «низкой» (q) групп.

Если критерий - будущее событие (проспективная валидизация), то выборка должна быть составлена с запасом - с учетом вероятного объема экстремальных групп в будущем. Например, нужно выяснить, позволяет ли диагностика темперамента прогнозировать повышен­ный риск психосоматических заболеваний (гипертония, язва, астма и т. п.). Пусть на основании эпидемиологических исследований извес­тно, что в течение трех лет из. 1000 здоровых людей этими болезнями заболевают 57 человек. Это означает, что превентивной (предупреж­дающей) диагностикой должно быть охвачено около 2000 человек, чтобы получить численность «высокой» группы (заболевших) поряд­ка 100 человек. Проспективная валидизация выявляет прогностичес­кую эффективность диагностической процедуры. Высокая прогнос­тическая валидность доказывает как валидность самого измерения, так и наличие предполагаемой причинной связи.

Ретроспективная валидизация позволяет в лучшем случае решить только первую из двух задач. Например, если для исследования лич­ностной предрасположенности к совершению краж проведено обсле­дование лиц, находящихся под следствием (т. е. уже совершивших преступление), то выявление акцентированных черт «тревожности», «агрессивности» и т. п. еще не может интерпретироваться как свиде­тельство причинных факторов преступности - эти черты могут быть лишь следствием сложившихся обстоятельств: лишение свободы, уг­рызения совести и т. п. (Ратинов А. Р., 1979). Во многих медико-пси­хологических исследованиях был выделен особый диагностический синдром «госпитализации», который обнаруживается у любой кате­гории госпитализированных больных (обычно он выражается в по­вышении шкал «депрессии» и «ипохондрии» по MMPI – Шхвацабая, 1980). Очевидно, что подобные личностные сдвиги никак нельзя ин­терпретировать в смысле симптомов предрасположенности к опреде­ленным психогенным заболеваниям, ибо они относятся к следстви­ям, а не к причинам этих заболеваний.

Конструктная валидность. В отличие от прагматической валидизации собственно психологическую валидизацию порой оказыва­ется провести гораздо труднее в силу отсутствия какого-либо более объективного внутрипсихологического критерия, чем сам тест.

Наиболее благополучная ситуация имеется тогда, когда для из­мерения данного свойства в психологии уже имеется процедура с известной валидностью. В этом случае корреляция между балла­ми двух тестов - линейная (см. формулу 3.2.3) или ранговая (см. формулу 3.2.5)- указывает на то, обладает ли новый тест конвер­гентной валидностью по отношению к старому. Если новый тест обнаруживает высокую конвергентность результатов со старым и одновременно оказывается более компактным и экономичным 'в проведении и подсчете, то психодиагносты получают возможность использовать новый тест вместо старого.

Однако во многих случаях для измеряемого свойства психодиа­гност не может найти в литературе ни одного уже апробированного теста с известной валидностью. В этом случае он может сформулиро­вать ряд предсказательных гипотез о том, как будет коррелировать его новый тест с другими тестами, измеряющими родственные характеристики испытуемых. Эти гипотезы выдвигаются на основе теоретических представлений об измеряемом свойстве. Их подтвержде­ние указывает на валидность выдвигаемого конструкта, т. е. на конструктную валидность теста. В западной литературе это операциональное определение конструктяой валыидности называется предполага­емой валидностью (assumed validity).

Представления о конструктной валидности тестов постоянно развиваются с пополнением репертуара методик. Эмпирические иссле­дования взаимосвязей результатов, получаемых с помощью разных методик, обогащают теоретические представления об измеряемых свойствах.


Поделиться:



Популярное:

  1. В работе ставится цель - изучить влияние переменного параметра в одной из параллельных ветвей на величины и фазы токов ветвей и источника питания.
  2. Верхним пределом нормального артериального давления считаются цифры
  3. Виды адсорбции, ее количественные характеристики и их связь с параметрами системы
  4. Для формирования нормального фенотипа
  5. И связь их с параметрами ступеней
  6. Как сказывается периодичность диагностирования параметра на безотказность автомобиля в эксплуатации?
  7. Командный файл с параметрами
  8. Контроль технологического процесса в нормальном режиме.
  9. Коэффициент показывает, в какой мере материальные запасы покрыты собственными источниками и не нуждаются в привлечении заемных средств. Нормальное значение показателя - 0,6 - 0,8.
  10. Морфологическая модель здорового человека. Оценка нормальной массы и размеров тела.
  11. Нелинейные по параметрам парные уравнения регрессии.


Последнее изменение этой страницы: 2016-04-11; Просмотров: 513; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.086 с.)
Главная | Случайная страница | Обратная связь