Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология
Образование Политология Производство Психология Стандартизация Технологии


Стохастическая теория тестов (IRT)



Наиболее общая теория конструирования тестов, опирающаяся на теорию измерения, — Item Response Theory (IRT). Онаосновывается на теории латентно-структурного анализа (ЛСА), созданной \ П.Лазарсфельдом и его последователями. 1 Латентно-структурный анализ создан для измерения латентных (в том числе психических) свойств личности. Он является одним из вариантов многомерного анализа данных, к которым принадлежат факторный анализ в его различных модификациях, многомерное шкалирование, кластерный анализ и др.

Теория измерения латентных черт предполагает, что:

1. Существует одномерный конти нуум свойства — латентной пере­менной (х); на этом континууме происходит вероятностное распре­деление индивидов с определенной плотностью цх).

2. Существует вероятностная зависимость ответа испытуемого на задачу (пункт теста) от уровня его психического свойства, которая называется характеристикой кривой пункта. Если ответ имеет две градации («да — нет», «верно — не верно»), то эта функция есть ве­роятность ответа, зависящая от места, занимаемого индивидом на континууме (х).

3. Ответы испытуемого не зависят друг от друга, а связаны только через латентную черту. Вероятность того, что, выполняя тест, испы­туемый даст определенную последовательность ответов, равна про­изведению вероятностей ответов на отдельные задания.

Конкретные модели ЛСА, применяемые для анализа эмпиричес­ких данных, основаны надополнительныхдопущенияхо плотности распределения индивидов на латентном континууме или о форме функциональной связи уровня выраженности свойства у испытуе­мого и ответа на пункт теста.

В модели латентного класса функция плотности распределения индивидов является точечно-дискретной: все индивиды относятся к разным непересекающимся классам. Измерение производится но­минальной шкалой.

В модели латентной дистанции постулируется, что вероятность ответа индивида на пункт теста является мультипликативной функ­цией от параметров задачи и величины свойства:

где

Р, (х) — вероятность ответа «да» на i-й пункт,

а — «дифференцирующая сила» задания,

х — величина свойства,

Р, — «трудность» задания.

 

Вероятность ответа на пункт теста описывается функцией, изо Сраженной на графике.

где

F(x) — величина i-ro задания, Р^(х) — вероятность ответа на i-e задание.

Модель нормальной огивы есть обобщение модели латентной дис­танции. В ней вероятность ответа на задание такова:

где

· L(x) — плотность нормального распределения. В логистической модели вероятность ответа на задание описыва­ется следующей зависимостью:

распределения.

Логистическая модель используется наиболее широко, так как она специально предназначена для тестов, где свойство измеряется сум­мированием баллов, полученных за выполнение каждого задания с учетом их весов.

Логистическая функция и функция нормального распределения тесно связаны:

/ Ф(x)-\V(^, 7x) \< 0, 01

(здесьф(х) — кумулятивная функция нормального распределения). Развитием ЛСАявляются различные модификации Item Response Theory. В IRT распределения переменных на оси латентного свой-208

ства считаются непрерывными, т.е. модель латентного класса не ис­пользуется.

База для IRT— это модель латентной дистанции. Предполагает­ся, что и индивидов, и задания можно расположить на одной оси «способность — трудность», или «интенсивность свойства — сила пункга». Каждому испытуемому ставится в соответствие только од но значение латентного параметра («способности»).

В общем виде вероятность ответа зависит от множества свойств испытуемого, но в моделях IRT рассматривается лишь одномерный случай.

Главное отличие IRT от классической теории теста в том, что в ней не ставятся и не решаются фундаментальные проблемы эмпирической валидности и надежности теста: задача априорно соотносится лишь с одним свойством, т.е. тест заранее считается валидным. Вся проце­дура сводится к получению оценок параметров трудности задания и к измерению «способностей» испытуемых (образованию «характе­ристических кривых»).

В классической теории теста индивидуальный балл (уровень свой­ства) считается некоторым постоянным значением. В IRT латент­ный параметр трактуется как непрерывная переменная.

Первично моделью в IRT стала модель латентной дистанции, предложенная Г.Рашем: разность уровня способное ги и трудносчи Tecia х^ —р^, где х^ — положение i-ro испытуемого на шкале, ар— положение j-ro задания на той же шкале. Расстояние (х^ — р^) харак­теризует отставание способности испытуемого от уровня сложности задания. Если разница велика и отрицательна, то задание не может быть выполнено, так как для данного испытуемого оно слишком сложно. Если же разница велика и положительна, то задание также не информативно, ибо испытуемый заведомо легко и правильно его решит.

Вероятность правильного решения задания (или ответа «да») i-м испытуемым:

Р, (^)=Г(х-Р, ) Вероятность выполнения j-ro задания группой испытуемых:

Р^(х-Р^).

В IRT функции (х) и f(P) называются функциями выбора пункта. Соответственно первая является характеристической функцией ис­пытуемого, а вторая — характеристической функцией задания.

Считается, что латентные переменные х и (3 нормально расиреде лены, поэтому для характеристических функций выбирают либоло-гистическую функцию, либо интегральную функцию нормирован ного нормального распределения (как мы уже отмегилн выше, от, мало отличаются друг от друга).

Поскольку логистическую функцию проще аналитически зада вать, ее используют чаще, чем функцию нормальною распределс ния.

Кроме «свойства» и «силы пункта» (она же — трудность задания 1 в аналитическую модель IRT могут включаться и другие перемен ные. Все варианты IRT классифицируются по числу используемых i, них переменных.

Наиболее известны однопараметрическая модель Г.Раша. двух­параметрическая модельА.Бирнбаума и трехпараметрическая модель А.Бирнбаума.

В однопараметрической модели Pauia предполагается, чтоотвеч испытуемого обусловлен только индивидуальной величиной изме­ряемого свойства (й^) и «силой» тестового задания ([3). Следователь­но, для верного ответа («да»)

и для неверного ответа («нет»)

Наиболее распространена модель Раша с логистической функцией отклика.

Для тестового задания:

Естественно, чем выше уровень свойства (способности), тем ве­роятнее получить правильный ответ («ключевой» огвет — «да»). Следовательно, функция Р (9) является монотонно возрастающей.

В точке «перегиба» характеристической кривой i-ro задания тес­та «способность» равна «трудности задания», следовательно, «веро­ятность его решения» равна 0, 5.

ичевидно, что индивидуальная кривая испытуемого, характе­ризующая вероятность решить то или иное задание (дать ответ «да»), будет монотонно убывающей функцией.

В точке на шкале, где «трудность» равна «индивидуальной спо­собности испытуемого», происходит «перегиб» функции. С ростом «способности» (развитием психологического свойства) кривая сдви­гается вправо.

Главной задачей IRT является шкалирование пунктов теста и ис­пытуемых.

Упростим исходную формулу модели, введя параметр V= e91-^:

Шанс на успех i-ro испытуемого при решении j-ro задания опре­деляется отношением:

Если сравнить шансы двух испытуемых решить одно и то жej-е задание, то это отношение будет следующим:

Следовательно, разница в успешности решения задания испыту емыми не зависит от сложности задания и определяется лишь уров нем способности.

Нетрудно заметить, что в модели Раша отношение трудности за­даний не зависит от способности испытуемых. Для того, чтобы убе­диться в этом, достаточно проделать аналогичные простейшие пре образования, сравнивая вероятности ответов группы на два пункта, теста, а не вероятности ответов разных испытуемых.

где

Р, — вероятность ответа на k-e задание для i-го испытуемого, U==

ев.-р,

и для неправильного ответа

Следовательно,

Для сравнения шансов на успех i-ro испытуемого решить зада­ния k и п берем отношение:

Тем самым отношение шансов испытуемого решить два разных задания определяется лишь трудностью этих заданий.

Обратим внимание, что шкала Раша (в теории) является шкалой отношений.

Теперь у нас есть возможность ввести единицу измерения спо­собности (в общем виде — свойства). Если взять натуральный логарифм от е1'» -pk или е9' -ет, то получается единица измерения «логит» (термин ввел Г.Раш), которая позволяет измерить и «силу пункта» (трудность задания), и величину свойства (способность испытуемо­го) в одной шкале.

Эмпирически эта процедура производится следующим образом. Предполагается, что данные тестирования и значения латентных переменных характеризуются нормальным распределением. Уровень «способности» испытуемого в «логитах» определяется на шкале ин­тервалов с помощью формулы:

где

п — число испытуемых,

р^ — доля правильных ответов i-ro испытуемого на задания теста,

q^ — доля неправильных ответов,

Р, +Я, =1-

Для первичного определения трудности задания в логитах исполь­зуют оценку

Р”= In ——, j=l, 2,..„ п, Р,

где п — число заданий,

р, — доля правильных ответов для испытуемых группы Haj-e за­дание, q —доля неправильных ответов,

P+Q-1-

Хотя параметры (3 и 6 изменяются от «плюса» до «минуса». io при Р < — 6 значения р^ близки к единице, т.е. на эти задания прак­тически каждый испытуемый дает правильный («ключевой») ответ. При (3 > б с заданием не сможет справиться ни один испытуемый, точнее — вероятность дать «ключевой» ответ ниччожна.

Рекомендуется рассматривать лишь интервалы от — 3 до + 3 как для Р (трудности), так и для 6 (способность).

Второй этап шкалирования испытуемых и заданий сводится к тому, что шкалы преобразуются в единую путем «уничтожения» вли­яния трудности задания на результат индивидов. И наоборот, эли-

 

минируется влияние индивидуальных способностей на решение за­даний различной трудности. Для шкалы испытуемых:

где

(3 — среднее значение логитов трудности заданий теста, W — стандартное отклонение распределения начальных значений

параметра (3, n — число испытуемых. Для шкалы заданий:

6 — среднее значение логитов уровней способностей,

V — стандарное отклонение распределения начальных значений «способности»,

n — число заданий в тесте.

Эти эмпирические оценки используются в качестве окончатель­ных характеристик измеряемого свойства и самого измерительного инструмента (заданий теста).

Если перед исследователем стоит задача конструирования теста, то он приступает к получению характеристических кривых заданий теста. Характеристические кривые могут накладываться одна на другую. В этом случае избыточные задания выбраковываются. На определенных участках оси 9 («способность») характеристические кривые заданий могут вовсе отсутствовать. Тогда разработчик теста должен добавить задания недостающей трудности, чтобы равномерно заполнить ими весь интервал шкалы логитов от —6 до +6. Заданий средней трудности долж­но быть больше, чем на «краях» распределения, чтобы тест обладал необходимой дифференцирующей (различающей) силой.

Вся процедура эмпирической проверки теста повторяется не­сколько раз, пока разработчик не останется доволен результатом ра­боты. Естественно, чем больше заданий, различающихся по уровню трудности, предложил разработчик для первичного варианта теста, тем меньше итераций он будет проводить.

Главным недостатком модели Раша теоретики считают пренебре­жение «крутизной» характеристических кривых: «крутизна» их по­лагается одинаковой.

Задания с более «крутыми» характеристическими кривыми по­зволяют лучше «различать» испытуемых (особенно в среднем диа­пазоне шкалы способности), чем задания с более «пологими» кри­выми.

Параметр, определяющий «крутизну» характеристических кри­вых заданий, называют дифференцирующей силой задания. Он ис­пользуется в двухпараметрической модели Бирнбаума.

Модель Бирнбаума аналитически описывается формулой

Параметра определяет «крутизну» кривой в точке ее перегиба;

его значение прямо пропорционально тангенсу угла наклона каса­тельной к характеристической кривой задания теста в точкеЭ = (^.

Интервал изменения параметра а от—с^до +оо. Если значения а близки к 0 (для заданий разной трудности), то испытуемые, разли­чающиеся по уровню выраженности свойства, равновероятно дают «ключевой» ответ на это задание теста. При выполнении такого за­дания у испытуемых не обнаруживается различий.

Парадоксальный вариант получаем при а < 0. В этом случае бо­лее способные испытуемые отвечают правильно с меньшей вероят­ностью, а менее способные — с большей вероятностью. Опытные пси­ходиагносты знают, что такие случаи встречаются в практике тести­рования очень часто.

Ф.Лорди М.Р.Новик в своей классической работе приводят фор­мулы оценки параметра а. При а = 1 задание соответствует однопараметрической модели Раша. Практики рекомендуют использо­вать задания, характеризующие значение а в интервале от 0.5 до 3.

Все психологические тесты можно разделить в зависимости oi формального типа ответов испытуемого на «открытые» и «закры­тые». В тестах с «открытым» ответом, к которым относятся tcctwais Д.Векслераили методикадополнения предложений, испытуемый са\' порождает ответ. Тесты с «закрытыми» заданиями содержат вари­анты ответов. Испытуемый может выбрать один или несколько ва­риантов из предлагаемого множества. В тестах способностей (тес'1 Д.Равена, GABT и др.) предусмотрено несколько вариантов непра­вильного решения и один правильный. Испытуемый может приме­нить стратегию угадывания. Вероятность угадывания ответа:

где

n — число вариантов.

Результаты эмпирических исследований показали, что относи­тельные частоты решения «закрытых» заданий отклоняются от тео­ретически предсказанных вероятностей двухпараметрической модели Бирнбаума. Чем ниже уровень способностей испытуемого (низкие значения параметра 6), тем чаще он прибегает к стратегии угадыва­ния. Аналогично, чем труднее задание, тем больше вероятность того, что испытуемый будет пытаться угадать правильный ответ, а не ре­шать задачу.

Бирнбаум предложил трехпараметрическую модель, которая по­зволила бы учесть влияние угадывания на результат выполнения теста.

Трехпараметрическая модель Бирнбаума выглядит так:

Соответственно оценка «силы» пункта (трудности задания) вло-гистической форме модели

С характеризует вероятность правильного ответа на задание j в том случае, если испытуемый угадывал ответ, а не решал задание, т.е. при 9 —> 0. Для заданий с пятью вариантами ответов С = 0, 2, с четырьмя вариантами — С = 0, 25 и т.д.

Нетрудно заметить, что характеристическая кривая задания при учете параметра С становится более пологой, так как 0 < С < 1, но при всех С = 0 кривая поднимается над осью 9 на величину С^. Тем самым даже самый неспособный испытуемый не может показать нулевой результат. Дифференцирующая сила тестового задания при введении параметра С снижается. Из этого следует нетривиальный вывод: тесты с «закрытыми» заданиями (вынужденным выбором от­вета) хуже дифференцируют испытуемых по уровням свойства, чем тесты с «открытыми» заданиями.

Модель Бирнбаума не объясняет парадоксального, но встречаю­щегося в практике тестирования феномена: испытуемый может реже выбирать правильный ответ, чем неправильный. Таким образом, час­тота решения некоторых заданий может не соответствовать предска­заниям модели Р < С, тогда как, согласно модели Бирнбаума, в пре­деле Р = С.

Рассмотрим еще одну модель, которую предложил В.С.Аванесов. Как мы уже заметили, в IRT не решается проблема валидности: ус­пешность решения задачи зависит в моделях IRT только от одного свойства. Иначе говоря, каждое задание теста считается априорно валидным.

Аванесов обратил внимание на это обстоятельство и ввел допол­нительный, четвертый, параметр, который можно обозначить как внутреннюю валидность задания. Успешность решения задания оп­ределяется не только «основной» способностью (9), но и множест­вом условий, нерелевантных заданию, однако влияющих надеятель-ность испытуемого.

Четырехпараметрическая модель представляет, по мнению ряда исследователей, лишь теоретический интерес:

где

у — валидность тестового задания.

Если у < 1, то тест не является абсолютно валиднным. Следова­тельно, вероятность решения задания не только определяется тео­ретически выделенным свойством, но и зависит от других психи­ческих особенностей личности.

Бирнбаум считает, что количество информации, обеспеченное j-м заданием теста, при оценивании 9 является величиной, обратно про­порциональной стандартной ошибке измерения данного значения 6 j-м заданием. Более подробно вычисление информационной функ­ции рассмотрено в работе М.Б.Челышковой.

Многие авторы, в частности Пол Клайн, отмечают, что IRT об­ладает множеством недостатков. Для того, чтобы получить надежную и независимую от испытуемых шкалу свойств, требуется про­вести тестирование большой выборки (не менее 1000 испытуемых) Тестирован недостижений показывает, что существу ют значитель­ные расхождения между предсказаниями модели и эмпирическими данными.

В 1978 г. Вуд доказал, чтолюбые произвольные данные могутбыть приведены всоогветствиес моделью Раша. Кроме того, существуе! очень высокая корреляция шкал Раша с классическими тестовыми шкалами (около 0, 90).

Шкалирование, по мнению Раша, способно привести к образо­ванию бессмысленных шкал. Например, попытка применить его мо­дель к опроснику EPQ Айзенка породила смесь шкал N, Е, Р и L.

Главный же недостаток IRT — игнорирование проблемы валид-ности. В психологической практике не наблюдается случаев, когда ответы на задания теста были бы обусловлены лишь одним факто­ром. Даже при тестировании общего интеллекта модели 1'R.T непри­менимы.

Клайн рекомендует использовать модели IRT для коротких тес­тов с валидными заданиями (факторно простые тесты).

В пособии Клайна «Справочное руководство по конструирова­нию тестов» (Киев, 1994) приведен алгоритм конструирования тес­тов на основе модели Раша.

В заключение рассмотрим вероятностную модель тестов «уров­ня» Ф.М.Юсупова, аспиранта лаборатории психологии способнос­тей Института психологии РАН. Его модель разработана для тестов с «закрытыми» заданиями (выбором ответов из множества), разли­чающимися по уровню трудности. В «закрытых» тестах испытуемый может применить стратегию «угадывания» ответа. Вероятность уга­дывания

где

m — число альтернатив.

Сложность тестового задания

где

n — число испытуемых, способных решить задание, N — общее количество испытуемых в выборке валидизации. При W< P невозможно определить, решена задача случайно или закономерно. Полагается, что биноминальное распределение вероят­ности успешного выполнения тестового задания при больших N апп­роксимируется нормальным. Должны выполняться следующие условия:

1. Правильный ответ выбирается неслучайно, если:

его экспериментально полученная частота больше 1/т;

это превышение статистически значимо;

оценить его можно с помощью t-критерия Стьюдента.

2. Все ложные варианты ответов должны выбираться не чаще, чем случайные:

где

n — частота выбора неверного ответа.

Тем самым тестовое задание стимулирует испытуемого к выбору правильного ответа.

3. В тестах «уровня» диапазон изменения показателя сложности О < W S 1 должен быть уменьшен «слева» на величину W, значимо отличающуюся от W, в которой t = t^ (t — критерий Стьюдента). Чем больше вариантов ответов в тесте, тем меньше W и шире об­ласть допустимых значений показателя сложности тестового зада­ния. Например, для N = 100, а = 0, 05 (t^ = 1, 90) и 10 > m > 3 расчет показывает, что уже при m > 6 скорость расширения области значе­ний показателя сложности значимо замедляется. Поэтому рекомен­дуется выбирать 6— 10 вариантов ответа.

В тесте «уровня» число градаций сложности и число заданий свя­зано. Чем точнее оценка свойства, тем больше число градаций. Но это влечет снижение достоверности измерения, так как длина теста (число задан и и) ограниченна. Уменьшение числа градаций приве­дет к нивелированию различий между испытуемыми.

Предельно возможное число заданий в тесте выбирается при ус­ловии, что различие в уровне их сложности гарантируется с выбран­ной вероятностью.

Поскольку дисперсия биноминального распределения максималь­на в центре интервала 0 — 1 и уменьшается к периферии до 0, шаг градаций сложности на разных участках этого интервала будет раз­личным: на периферии он должен стремиться к нулю.

Удобно принять в качестве шага градации сложности 1/10 интер­вала. Для а = 0, 05, N = 100 получается 7 значений показателя слож­ности, что при шаге, равном 0, 1, гарантирует различение между уров­нями с вероятностью 0, 9.

Если учесть условие минимизации случайного выбора правиль­ного ответа, то число градацийсложности должно быть еще мень­ше. Например, при б вариантах ответа число заданий разного уров­ня сложности не может быть больше 6.

Эти выводы верны в том случае, если биноминальное распреде­ление аппроксимируется нормальным распределением. При боль­шом числе испытуемых такая аппроксимация возможна.

Расчеты показывают, что минимально необходимый объем вы­борки для апробации тестовых заданий не так уж и велик — 56 чело­век при достоверности 0, 9.

Следовательно, исходя из вероятностной модели теста и не при­бегая к допущениям о моделях тестирования, можно рассчитать пара­метры теста как предельные характеристики, обеспечивающие до­стоверность измерения.

Литература

Психологические измерения. М.: Мир, 1976. Наповян С. С. Математические методы в социальной психологии.

М.: Наука, 1983. Клайн П. Справочное руководство по конструированию тестов.

Киев, 1994. ДюкВ.А. Компьютерная психодиагностика. СПб.: Братство, 1994.

Вопросы

1. Какие основные типы шкалы используются в психологических исследованиях?

2. В чем состоят отличия классической модели теста от теории выбора ответа (IRT)?

3. Что гакое «логит»?

4. Каким должно быть число уровней трудности заданий в тесте?

5. В каких случаях применяется шкалограммный анализ?


Поделиться:



Популярное:

Последнее изменение этой страницы: 2016-05-28; Просмотров: 815; Нарушение авторского права страницы


lektsia.com 2007 - 2024 год. Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав! (0.063 с.)
Главная | Случайная страница | Обратная связь