Надёжность и валидность теста

⇐ ПредыдущаяСтр 4 из 17Следующая ⇒

Основными показателями качества теста являются надежность и валидность теста. А так как тест является инструментом педагогического измерения, то эти показатели имеют численное значение и определяются с помощью различных методов как в классической теории тестов, так и в современной теории тестов.

Надежность - это характеристика теста, отражающая точность педагогического измерения, а также устойчивость результатов тестирования к воздействию посторонних (случайных) факторов.

Для оценки надежности нормативно-ориентированного теста используются две группы методов.

1. Двукратное тестирование:

– ретестовый метод;

– метод параллельных форм.

2. Однократное тестирование (метод расщепления теста).

Оценка надежности чаще всего строится на подсчете корреляции двух наборов результатов выполнения одного и того же теста или двух его параллельных форм. Чем выше корреляция, тем надежнее тест.

Ретестовый метод.

Данный метод оценки надежности предполагает двукратное проведение одного и того же теста в одной группе испытуемых. Повторное тестирование проводится примерно через 2-3 недели, чтобы учащиеся не слишком сильно забыли проверяемый материал и недалеко продвинулись в изучении нового, то есть уровень их учебных достижений остался примерно прежним.

Ретестовый метод основан на подсчете корреляции индивидуальных баллов испытуемых по результатам выполнения первого и второго тестирования.

Коэффициент надежности (коэффициент корреляции Пирсона):

Хорошим коэффициент надежности теста считается, когда показатель колеблется в пределах 0, 8 < К < 1.

Данный метод оценки надежности не очень удобен в педагогических измерениях. Временной фактор играет большую роль: временной промежуток не может быть большим - изменится уровень учебных достижений учащихся, но и не должен быть слишком коротким - испытуемые могут помнить задания теста и ответы на них. И в том и в другом случае результаты измерения нельзя использовать для определения надежности теста.

Метод параллельных форм.

Метод параллельных форм предполагает двукратное тестирование одной и той же группы испытуемых тестами, которые идентичны по содержанию, структуре, включают задания тождественные по трудности, дифференцирующей способности и др., то есть параллельными формами теста.

Коэффициент надежности:

x_i – индивидуальный балл i-ого студента при ответе на тест X

y_i – индивидуальный балл i-ого студента при ответе на тест Y

N – число студентов

Главная трудность применения этого метода в том, что прежде чем использовать параллельную форму теста, разработчику надо создать новый тест, тождественный первому, и доказать идентичность, а это очень трудоемкая процедура. Поэтому этот метод, с практической точки зрения, малоэффективен.

Однократное тестирование (метод расщепления теста).

Этот метод удобен в практическом применении, так как ограничивается однократным тестированием. Метод расщепления теста основан на допущении параллельности двух половин теста и предполагает деление результатов тестирования на две части: данные по нечетным заданиям теста (Х) и по четным (У). Корреляция двух половин тестов возрастает по мере роста однородности (гомогенности) теста. Поэтому метод расщепления теста называют методом оценки внутренней согласованности и используют для определения гомогенности теста.

Коэффициент надежности вычисляется по формуле:

, где результат первого тестирования – это результаты по нечетным заданиям, а второго – по четным заданиям.

Так как подсчет надежности (К) ведется по расщепленному тесту, который в два раза короче, то оценка надежности исходного корректируется по формуле Спирмена-Брауна

В практике педагогических измерений часто используется способ оценки надежности с применением формулы Кьюдера-Ричардсона. Она может применяться только в том случае, когда выполнение задания оценивается дихотомически (1 балл - правильно; 0 баллов - неправильно).

Рассмотренные выше методы определения надежности подходят только для оценки нормативно-ориентированных тестов. По мнению многих тестологов, эти методы нежелательно использовать для вычисления надежности критериально-ориентированного теста, так как дисперсия тестовых баллов в критериально-ориентированном тесте небольшая (здесь не нужна большая дифференциация баллов испытуемых), а соответственно и корреляционная оценка надежности будет низкой.

Поэтому предлагается другая методика оценки надежности. Надежность теста, ориентированного на область содержания, может быть измерена как постоянство результатов тестирования для испытуемых, которым предлагается два набора тестовых заданий, которые соответствуют одному и тому же содержанию.

Практически это выглядит следующим образом. Группа испытуемых выполняет два идентичных теста или два теста объединяются в один, при этом вопросы перемежаются: (1 вариант – 1 вопрос, 2 вариант – 1 вопрос, 1 вариант – 2 вопрос, 2 вариант – 2 вопрос и т. д.). По итогам тестирования испытуемые делятся на две группы: получившие зачет и не получившие зачет по двум тестам (по частям расщепленного теста). Далее проводится сравнение результатов тестирования по двум вариантам или, во втором случае, по вариантам расщепленного теста. По результатам теста составляется таблица сопряжения.

Численный показатель коэффициента надежности критериально-ориентированного теста вычисляется с помощью? -коэффициента корреляции.

Вычисляется также? -коэффициент как показатель критериально-ориентированного теста по формуле:

? = (P - Pc)/(1 - Pc),

где P = A + D - доля испытуемых, получивших «зачет» и «незачет» и в первой, и во второй форме теста; Pc - вероятность случайного принятия согласованного решения.

Pc вычисляется по формуле:

Pc = (c + d)(d + b) + (a + b)(c + a)

Каппа-коэффициент может принимать значения от -1 до 1. Если создается тест для аттестации по итогам определенной ступени обучения, то рекомендуется вычислять? - и? -коэффициенты. Их величины должны быть больше 0, 8 (0, 85) и приблизительно равны между собой, что свидетельствует о хорошей надежности теста.

Валидность (от англ. Validity - значимость, обоснованность, пригодность) - это характеристика способности теста служить поставленной цели измерения, то есть способность теста измерять то, для чего он предназначен.

Выделяют несколько видов валидности, которые отражают различные аспекты этого критерия качества теста (А. Анастази; А.Н. Майоров): содержательную, критериальную и конструктную (концептуальную) валидность [2].

1. Содержательная валидность (content validity) - соответствие теста как измерительного инструмента той области содержания, знания и умения, которую проверяют данным тестом. В зависимости от выбранного подхода при создании теста предъявляются различные требования к содержательной валидности. Для критериально-ориентированных тестов одно из требований содержательной валидности - полнота отображения, а в некоторых случаях – детализация проверяемой области содержания. При нормативно-ориентированном подходе тест можно охарактеризовать как валидный по содержанию, если он будет хорошо дифференцировать испытуемых и отражать самые важные характеристики этого теста.

Валидность по содержанию закладывается в тест уже на этапе работы со спецификацией теста и отбора его содержания. Для педагогических тестов содержательная валидность очень важна и оценивается экспертным путем.

2. Критериальная валидность - это характеристика теста, отражающая обоснованность, значимость его результатов, по сравнению с некоторой внешней переменной (степень соответствия между результатами тестирования и внешним критерием).

Критериальную валидность определяют как корреляцию результатов тестирования с некоторым внешним критерием. В качестве внешнего критерия могут браться результаты испытуемых по другому тесту, отметки, выставленные по методике традиционного оценивания. Критериальная валидность, в зависимости от выбранного критерия, может быть текущей (внешний критерий - текущие оценки) или прогностической (критерий - некоторый будущий результат).

Для оценки критериальной валидности необходимо составить таблицу с результатами тестирования и список тех же студентов с экспертной оценкой преподавателя (-ей). В качестве критерия берем оценки преподавателей при традиционной проверке знаний без использования тестов.

Формула:

s_x² – дисперсия индивидуальных баллов,

N – число студентов.

Критериальная валидность измеряется от –1 до 1, валидность более 0, 3 считается удовлетворительной.

⇐ Предыдущая 1 2 345 6 7 8 9 10 Следующая ⇒