Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Другие подходы к измерению надежности.



До широкого применения компьютеров вычислять коэффициент альфа вруч­ную было долго, поэтому использовалась аппроксимация [10]. Вместо сложения всех заданий теста для получения общей оценки вычислялись две оценки: одна основывалась на всех нечетных за­даниях теста, а другая - на всех четных. Полученные две оценки затем коррелировали между собой. Далее применяя формулу Спирмена-Брауна (поскольку набор четных или нечетных зада­ний - только половина объема полного теста) рассчитывали надеж­ность, полученную методом расщепления. В настоящее время, по-видимому, нет весомых оснований для ее использования.

Ретестовая надежность - временная ста­бильность, имеет совершенно другой смысл. Как следует из назва­ния, она проверяет, в какой степени оценки (! ) черты остаются бо­лее или менее постоянными в течение времени. Большинство тес­тов разработано для измерения именно стабильных черт таких, как экстраверсия, способности к вычислениям или нейротизм, а в определении черты подчеркивается, что это относительно устойчивая диспози­ция. Последнее предполагает, что индивидуумы должны иметь по­хожие оценки, когда они тестируются в двух ситуациях (напри­мер, с интервалом в несколько недель) при условии, что:

- с ними не случилось ничего значительного в интервале меж­ду двумя тестированиями (например, не было эмоциональ­ного кризиса, изменений, обусловленных развитием, или значительного образовательного опыта, который мог бы по­влиять на черту);

- тест хорошо измеряет черту.

Если при первом тестировании тест показывает, что ребенок гениален, а через месяц его интеллект оказывается на среднем уровне, то либо концепция интеллекта характеризует в большей степени состояние, а не черту, либо тест несостоятелен.

Проблема, однако, заключается в том, что ретестовая на­дежность основывается на общей оценке, она ничего не говорит о том, как люди выполняют отдельные задания. В то время как коэф­фициент альфа показывает, измеряет ли набор заданий некото­рую конкретную скрытую черту, прекрасную ретестовую надеж­ность может иметь набор заданий, которые не имеют ничего общего между собой (! ).

Например, если вы попросили кого-то суммировать номер своего дома, размер обуви и год рождения в двух разных ситуациях, полученная статистическая характеристика будет об­наруживать впечатляющую ретестовую надежность, хотя эти три пункта не имеют между собой ничего общего.

В связи с обсуждением понятия " ретестовая надежность" целесообразно остановиться на возможности дифференцирования таких психологических понятий как " состояние" и " черта личности" на основе статистической оценки.

Имея показатели ретестовой надежности и внутренней согласованности теста, представляется возможным математически проверить, является ли тестируемое психическое образование устойчивой личностной характеристикой или текущим состоянием. Говард Е. в своей работе [23] приводит формулу для вычисления индекса μ, по величине которого можно судить, что диагностируется данным тестом (черта личности или состояние субъекта в момент тестирования; например, тревожность как стабильная черта личности и как ситуативная характеристика).

Остер Т.Р. [24], приводит количественные данные для индекса μ, по которым можно отличить устойчивые характеристики личности от ситуативных. Если μ находится в пределах от 0, 4 до 0, 7, то данный тест определяет ситуативную характеристику индивида; при μ, равном 0, 1-0, 2, тест определяет стабильную личностную характеристику. Индекс μ вычисляется по формуле:

;

где: к - показатель ретестовой надежности теста; α - коэффициент внутренней однородности теста.

Надежность параллельных форм. Ради полноты картины следует упомянуть надежность параллельных форм. Конструкторы тестов иногда создают из набора заданий несколько тестов. Чтобы создать две параллельные фор­мы теста, задания предъявляются большой выборке испытуемых и подбираются пары заданий со сходным содержанием и уровнем трудности.

Например, обе формы теста могут включать задание решить анаграмму из семи букв, и в обоих случаях ответом будут слова, одинаково часто встречающиеся в языке, и только около 25% выборки будут способны решить каждую из них. Одно задание будет, затем включено в форму " А" теста, а другое - в форму " Б". Эти два теста продаются отдельно, и (теоретически) несущественно, какой из них будет использоваться в определенных целях, поскольку обычно прилагаются специальные усилия, гарантирующие, что эти две версии дают одинаковое распределение оценок (и бла­годаря этому позволяют использовать одни и те же таблицы норм для обеих форм теста). Если оба теста измеряют одну и ту же черту, следует ожидать высокой положительной корреляции между оцен­ками индивидуумов по двум формам теста. Эта корреляция извес­тна как надежность параллельных форм. Однако, поскольку из-за трудностей создания, парал­лельные формы имеют относительно немногие тесты, она исполь­зуется редко [10].

Надежность отдельных пунктов. Очевидно, что надежность теста обеспечивается надежностью пунктов, из которых он состоит. Чтобы повысить ретестовую (диахронную) надежность всего теста, надо отобрать из исходного набора пунктов (проверенных в пилотажных психометрических экспериментах) такие пункты, на которые испытуемые дают устойчивые ответы.

Для дихотомических пунктов с ответами типа " верно" или " неверно", устойчивость удобно измерять с использованием четырехклеточной матрицы сопряженности:

 

  Второе тестирование
Да Нет
Первое тестирование Да А В
Нет С Д

 

Здесь в клетке А суммируются частота ответов " Да", данных испытуемым при первом и втором тестировании; в клетке В суммируются частота ответов " Да", данных испытуемым при первом и " Нет" при втором тестировании; клетке С суммируются частота ответов " Нет", данных испытуемым при первом и " Да" при втором тестировании; клетке Д суммируются частота ответов " Нет", данных испытуемым при первом и втором тестировании [1, 11, 15].

В качестве меры корреляции вычисляется известный [11] фи -коэффициент:

φ = ,

При этом, значимость фи -коэффициента определяется с помощью критерия хи -квадрат по формуле: . (а)

Если вычисленное значение хи -квадрат выше табличного с одной степенью свободы, то нулевая гипотеза (о нулевой устойчивости) отвергается (см. приложение 2).

Удобство в использовании фи -коэффициента состоит в том, что он одновременно оценивает степень оптимальности данного пункта по силе (трудности): фи -коэффициент оказывается тем меньше, чем сильнее частота ответов " Да" отличается от частоты ответов " Нет".

В некоторых случаях подобный анализ позволяет уточнить ключ для пункта: если пункт получает значимый положительный фи -коэффициент, то ключ определяется величиной " +1", если пункт получает значимый отрицательный фи-коэффициент, то величиной " -1". Если пункт получает незначимый фи-коэффициент, то его целесообразно исключить из батареи.

При «ручных» вычислениях фи-коэффициента удобно вначале с помощью формулы (а) определить граничное значение значимого (по модулю) фи -коэффициента.

При постоянном (многократном) подсчете суммарных баллов - ключ для каждого пункта теста можно определять в виде более чувствительного, тетрахорического коэффициента корреляции (который также применяется для дихотомических пунктов) [4]:

, где A, B, C, D - клетки четырехпольной таблицы.

В этом случае в первом столбце таблички суммируются ответы испытуемых, из " высокой" группы (т.е. из группы испытуемых, набравших максимальное количество баллов), во втором столбце - из " низкой" (из группы испытуемых, набравших минимальное количество баллов).

При нормальном распределении частот суммарных баллов " высокая" и " низкая" группы отсекаются справа и слева 27% -ними средними квантилями.

 

  Группы испытуемых
Высокая Низкая
Да А В
Нет С D

 

Для того, чтобы повысить одномоментную (синхронную) надежность теста, следует из исходной пилотажной батареи пунктов отбросить те, которые плохо согласованы с остальными.

Как отмечалось выше, согласованность всех пунктов можно вычислить, используя формулу Кронбаха (для расчета α ), или же, в случае наличия дихотомических групп, определить с помощью точечного бисериального коэффициента корреляции, который учитывает амплитуду отклонения индивидуальных суммарных баллов от среднего балла [4]:

, где

- средний балл по «высокой» группе;

- средний балл по «низкой» группе;

σ - стандартное отклонение для суммарных баллов всех индивидов из выборки;

- количество испытуемых в «высокой» группе;

- количество испытуемых в «низкой» группе;

N - общее количество испытуемых в выборке.

А. Анастази относит критерий внутренней согласованности теста к валидности, однако, по мнению Столина, если и можно в данном случае говорить о валидности, то только в смысле особой внутренней валидности теста. Однако следует учесть, что слишком высокая согласованность снижает внешнюю валидность теста по критерию, (мы рассмотрим эту зависимость более подробно при анализе различных видов " валидности" теста).

Теория генерализованности - другой подход к теории надежности. Эта теория, разработанная Кронбахом, требу­ет от исследователей соблюдать высокую точность по отношению к тем заключениям, которые могут быть сделаны на основе набора тестовых оценок. Она пытается идентифицировать все возможные источники ошибок, которые могут возникнуть при оценивании, в значительной степени так же, как это было показано выше для отдель­ных заданий теста. Она стремится оценить каждый из возможных источников ошибок независимо и внести поправку в оценку каждого индивидуума с учетом влияний этих посторонних факторов [10].

Пред­ставим себе, что дети выполнили тест на правописание в двух си­туациях; данные, полученные в двух тестированиях, могут быть проанализированы многими способами. Например, можно оценить временную стабильность теста на правописание, определить, на­сколько стабильно дети выполняют буквенный анализ слова, или составить диаграмму, оценивающую рост успехов класса в право­писании. Проблема заключается в том, что определение (и изме­рение) всех этих переменных - очень запутанная и громоздкая процедура. Поскольку важность переменных будет, вероятно, меняться при переходе от одной выборки к другой (пенсионеры могут прилагать меньше усилий для выполнения тестов способно­стей, чем студенты, например), это до сих пор не имеет большого практического применения.


Поделиться:



Популярное:

  1. І. Современные подходы к пониманию права.
  2. АНТИГИСТАМИННЫЕ И ДРУГИЕ ПРОТИВОАЛЛЕРГИЧЕСКИЕ СРЕДСТВА. ИММУНОМОДУЛИРУЮЩИЕ СРЕДСТВА
  3. В установках не допускается использовать насадки, имеющие трещины, вмятины и другие дефекты, влияющие на их работоспособность.
  4. В6. ПОНЯТИЕ И ПРИЗНАКИ ГОСУДАРСТВА. КЛАССОВЫЙ И СОЦИАЛЬНЫЙ ПОДХОДЫ К ПОНИМАНИЮ СУЩНОСТИ ГОСУДАРСТВА.
  5. В6. ПОНЯТИЕ И ПРИЗНАКИ ГОСУДАРСТВА. КЛАССОВЫЙ И СОЦИАЛЬНЫЙ ПОДХОДЫ К ПОНИМАНИЮ СУЩНОСТИ ГОСУДАРСТВА.
  6. Вопрос 28. Типология государства и права: понятие, значение, основные подходы.
  7. ВОПРОС 36. ПОДХОДЫ К ИЗУЧЕНИЮ ЭЛИТ КАК АКТОРОВ КОНФЛИКТОРАЗРЕШЕНИЯ
  8. Вопрос 39 Сущность права: основные подходы.
  9. Вредные и (или) опасные факторы производственной среды и трудового процесса, подлежащие исследованию (испытанию) и измерению при проведении специальной оценки условий труда
  10. Глава 2. Другие симметричные отношения
  11. Государственно-властные режимы: понятие, виды. Научные подходы к их определению (государственно-правовой, государственно-политический)
  12. Другие внутриклеточные механизмы общего значения


Последнее изменение этой страницы: 2016-04-11; Просмотров: 796; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.02 с.)
Главная | Случайная страница | Обратная связь