Надежность тестовых результатов

⇐ ПредыдущаяСтр 7 из 7

Надежность тестовых результатов – основной критерий качества тестов. Многие специалисты считают, что этот термин следует применять именно к тестовым результатам, а не к самим тестам, которые в зависимости от условий применения могут давать различные результаты [3, 4].

Надежность тестовых результатов состоит в следующем:

- устойчивость (стабильность) тестовых баллов при параллельном (повторном тестировании в одной и той же группе испытуемых;

- воспроизводимость структуры подготовленности испытуемых;

- близкие значения дисперсии баллов при тестировании в параллельных группах.

Простейшим методом проверки устойчивости (воспроизводимости) тестовых результатов является проведение двух серий измерений одним и тем же тестом на одной и той же группе с последующим расчетом коэффициентов корреляции между баллами, полученными при двукратном тестировании. При этом, разумеется, база тестовых заданий должна иметь достаточное количество параллельных (одинаковых по трудности) заданий. Надежность тестовых результатов зависит также от «устойчивости» (стабильности) индивидуальных тестовых баллов по каждому вопросу теста, т.е. их «воспроизводимости» в параллельных испытаниях (см. пример в табл. 4.4).

Таблица 4.4 - Сравнение результатов тестирования в одной и той же группе испытуемых

№ пп	ФИО студентов	Тестирование 1 (Х)	Тестирование 2 (Y)	Х*Y	Х²	Y²
№ варианта	Сумма баллов	№ варианта	Сумма баллов
	Иванов А.А.
	Петров Б.Б.
	Сидоров В.В.
N	...		...		...	...	...	...
S	-	...	-	...	...	...	...

Далее рассчитывают коэффициент корреляции по формуле [6], приведенной ранее (подраздел 3.2.2). Его значение должно быть не менее 0, 8...0, 9. Низкое значение коэффициента корреляции может указывать на то, что задания в различных вариантах теста не являются параллельными, т.е. одинаковыми по трудности. В этом случае следует тщательно проанализировать матрицы тестовых результатов первого и второго тестирования, в частности, сравнить потенциалы трудности и дисперсии по каждому из вопросов теста. Существенное их различие будет свидетельствовать о справедливости предположения о различной трудности заданий в тесте. В этом случае соответствующие задания следует переработать.

Другим методом оценки надежности тестовых результатов является включение в тест «попарных» заданий, т.е. вместо одного задания тест содержит два-три параллельных, одинаковой трудности. По результатам тестирования рассчитывают сначала коэффициент корреляции между параллельными заданиями (по Пирсону), а затем – коэффициент надежности R по формуле Спирмен-Брауна [4]:

где R – коэффициент надежности;

n – число частей, на которые был поделен тест (если в тесте было по два параллельных задания одинаковой трудности, n = 2);

r – коэффициент корреляции Пирсона.

Максимальное значение коэффициента надежности равно 1. В США, Германии и ряде других стран требуют, чтобы значение коэффициента надежности в итоговых тестовых испытаниях составляло не менее 0, 9. В общем случае тестовые результаты могут считаться «надежными» при значении коэффициента надежности не менее 0, 8. При меньших значениях следует произвести тщательную проверку теста, т.к. он в данном случае, скорее всего, таковым не является.

ПрИМЕНЕНИЕ ЗАДАНИЙ В ТЕСТОВОЙ ФОРМЕ

ДЛЯ КОНТРОЛЯ УСПЕВАЕМОСТИ

На вопрос о применимости тестов для контроля успеваемости студентов по учебной дисциплине или по ее отдельным частям (разделам, темам, модулям) следует ответить отрицательно. Казалось бы, достаточно просто изменить подход к интерпретации результатов тестирования – установить шкалу оценивания в зависимости от количества правильно выполненных тестовых заданий, в соответствии с которой и выставить испытуемым оценки. Однако, к сожалению, задача более сложна.

Как уже указывалось, сфера применения тестов как средства педагогических измерений ограничена задачей ранжирования испытуемых внутри подвергнутой тестированию группы. Именно этой задаче подчинены и композиция тестов, и принципы отбора тестовых заданий. Другими словами, педагогические тесты формируются так, чтобы обеспечить оценивание знаний испытуемых по отношению друг к другу, тогда как контроль успеваемости подразумевает оценивание уровня подготовленности по некой абсолютной шкале, учитывающей не только факт усвоения определенного учебного материала (усвоен – не усвоен), но и степень этого усвоения.

В подтверждение приведем хотя бы такой аргумент. Как известно, тестовое задание, с которым успешно справляются все испытуемые, должно быть исключено из теста, равно как и задание, которое не может выполнить никто, поскольку такие задания не позволяют ранжировать членов группы. Если же речь идет о проверке знаний, а указанными заданиями контролируется усвоение определенного учебного материала, исключать их нет никакой необходимости. При качественно сформулированных заданиях тот факт, что некоторые из них выполняются всеми, а отдельные не выполняются никем из студентов, говорит лишь о достоинствах или недостатках преподавания соответствующих разделов дисциплины.

Разрешающая способность теста как инструмента ранжирования испытуемых всегда должна быть выше разрешающей способности средств измерения успеваемости, поскольку в последнем случае необходимо только разделять испытуемых на группы по количеству баллов в принятой шкале оценивания, а не выстраивать их по рейтингу. Отсюда следует возможность корректировки в сторону смягчения требования возрастающей трудности заданий. Видимо, нет жесткой необходимости в последовательном нарастании трудности от задания к заданию. Можно допустить наличие в тесте нескольких групп заданий возрастающей сложности при том, что внутри этих групп трудность заданий будет одинаковой.

Изложенное приводит к выводу, что для контроля успеваемости необходимо применять не педагогические тесты, а комплекты заданий в тестовой форме.

При этом все требования к форме заданий, изложенные ранее в настоящем пособии, остаются неизменными. Меняется лишь подход к отбору заданий.

Прежде всего, необходимо обеспечить репрезентативность содержания учебной дисциплины в комплекте заданий. При комплектовании следует обратить внимание на полноту и достаточность числа заданий для аргументированного вывода о знаниях. В самом деле, проверить знания испытуемых можно по пяти-шести заданиям. Но где уверенность, что студенты знают остальные элементы содержания учебной дисциплины? Путь к появлению такой уверенности лежит в наиболее полном отображении необходимых знаний и умений в заданиях комплекта. Репрезентативность не означает обязательного включения в комплект всех значимых элементов содержания или строго пропорционального включения в тест заданий по различным темам. Ведь многие из них явно связаны между собой в общей структуре знаний, включены один в другой, полностью или частично. Кроме того, многие элементы в структуре знаний иерархически соподчинены, а потому из соображений экономии, нет смысла включать в комплект задания по всем изучавшимся темам.

Сколько же заданий следует включать в комплект? Стремление к повышению точности результатов контроля путем увеличения числа заданий в комплекте нельзя, в принципе, признать правильным. При создании комплекта заданий в тестовой форме обычно ставится задача отобразить в нем то основное, что отражает идею измерения уровня и структуры подготовленности студентов, как результат образовательной деятельности. Можно сказать так: содержание учебной дисциплины, как правило, всегда будет шире содержания комплекта заданий в тестовой форме.

Разумеется, репрезентативность комплекта заданий связана с числом заданий и в общем случае, чем больше заданий, тем репрезентативнее могут оказаться результаты. Точность педагогических измерений также зависит от числа заданий и растет по мере их увеличения. В то же время, число заданий, включаемых в комплект, ограничивается временем, которое отводится для проведения контрольного мероприятия (обычно 1–2 академических часа). Таким образом, можно говорить о некоем предельном (30 заданий) и оптимальном по размеру комплекте заданий в тестовой форме.

Что касается дифференцирующей способности и коррелированности баллов каждого задания с суммарной оценкой по всему комплекту, то эти важнейшие требования к тестовым заданиям в полной мере должны быть отнесены и к заданиям в тестовой форме, включаемым в комплект для контроля успеваемости.

Ниже приводится один из возможных подходов к формированию комплектов заданий в тестовой форме для модульного контроля, принятый кафедрой автоматизации производственных процессов НМетАУ и соответствующей кафедрой ГИПОпром. Указанный подход ориентирован на использование 12-бальной шкалы оценивания, которая, легко трансформируясь в отечественную 4-бальную шкалу (см. табл. 5.1), позволяет существенно увеличить точность педагогических измерений.

Таблица 5.1 – Соответствие оценок 12-бальной и 4-бальной шкал

4-бальная шкала 12-бальная шкала

неудовлетворительно

удовлетворительно

хорошо

отлично

Сущность предлагаемой методики состоит в том, что каждый вариант комплекта заданий включает 12 заданий в тестовой форме, дифференцированной трудности (рис.5.1). Половина из них (6 заданий) соответствуют наиболее низкому ознакомительно-ориентировочномууровню сформированности знаний. Задания этой группы выявляют знание студентами таких учебных элементов дисциплины, как основные категории, термины, понятия и обозначения, свойства, явления, наблюдаемые факты и утверждения, описания объектов, механизмов и т.п. Условно говоря, это «задания на тройку».

База тестовых заданий

Задания наименьшей

трудности

(минимум – 15 заданий)

Задания средней

трудности

(минимум – 10 заданий)

Задания наибольшей

трудности

(минимум – 5 заданий)

Минимальное общее число

заданий - 30

Рис. 5.1 – Формирование комплекта заданий для проверки успеваемости

Треть заданий, входящих в комплект (4 задания), предназначены для контроля сформированности знаний более высокого понятийно-аналитического уровня, который предполагает знание основных соотношений, теорем, законов, концепций, правил, гипотез, теорий, физических и математических моделей, аналитических, графических и логических зависимостей, структур и т. п. Это, условно говоря – «задания на четверку».

Остальные задания (2 задания) являются наиболее сложными («задания на пятерку»). Контролируемый ними продуктивно-синтетический уровень сформированности знаний предполагает знание и умение использовать на практике алгоритмы деятельности, в том числе алгоритмы решения задач, доказательства теорем, процедуры, правила принятия решений, поведения и т.п.

Расположение заданий в комплекте должно подчиняться требованию возрастающей трудности, т. е. сначала должны следовать задания первой, наиболее простой группы, затем второй и только в конце – третьей, наиболее сложной группы. В отличие от тестов, необходимость такого расположение заданий в комплекте объясняется несколько иначе. Более трудные задания, будучи расположенными перед простыми, могут стать причиной неоправданного занижения оценки. У слабых студентов, которые будут слишком долго решать трудные задания, рискуя так и не решить их, может просто не хватить времени на решение более простых заданий, с которыми они при иных обстоятельствах вполне могли бы справиться.

Для получения достаточного количества вариантов рекомендуется сформировать базу заданий в тестовой форме, включающую не менее 30-ти заданий различного уровня. Минимальное количество заданий должно составлять: 15 заданий первого, 10 заданий второго и 5 заданий третьего уровня. База такого объема позволяет скомпоновать более 10, 5× 10⁶ комплектов заданий.

Наряду с этим остается весьма желательным использование заданий, параллельных по трудности.

Комплект заданий (рис. 5.1) формируется путем случайного выбора заданий каждой группы из базы. Преимущества использования при этом ПЭВМ и специализорованного программного обеспечения очевидны.

За правильное решение каждого из 12-ти заданий комплекта испытуемому присваивается 1 балл, за неверное решение – 0 баллов. Общая оценка за выполнение комплекта заданий определяется как простая сумма баллов, полученных за выполнение отдельных заданий.

Таким образом, для получения высокой оценки равно необходимо правильно решать как трудные, так и легкие задания. Другими совами, который справляется с трудными заданиями, но не может решить простых, не заслуживает высокой оценки.

Ориентировочное время на выполнение заданий различной трудности приведено в табл. 5.2.

Таблица 5.2 – Ориентировочное время на выполнение комплекта заданий в тестовой форме

Уровень трудности задания	Время, отведенное на решение
одного задания	всех заданий соответствующего уровня
Задания 1-го уровня	1 мин.	1 6 = 6 мин.
Задания 2-го уровня	3 мин.	3 4 = 12 мин.
Задания 3-го уровня	6 мин.	6 2 = 12 мин.
ВСЕГО НА КОМПЛЕКТ ЗАДАНИЙ	30 мин. (2/3 акад.час.)

Описанный подход к организации контроля успеваемости отличается рядом преимуществ, наиболее существенными из которых являются:

- максимальная простота и прозрачность формирования оценок, не требующая каких бы-то ни было громоздких вычислений;

- приемлемая продолжительность контрольных мероприятий;

- минимальные затраты времени преподавателей на составление достаточного количества вариантов комплектов заданий;

- максимальная приспособленность для автоматизации процесса контроля с использованием средств вычислительной техники, как во время контрольных мероприятий, так и при оценивании результатов и их документировании.

ЛИТЕРАТУРА

1. Аванесов В.С. Форма тестовых заданий. Учебное пособие для учителей школ, лицеев, преподавателей ВУЗов и колледжей. 2-е изд., перераб. и доп. –М: Центр тестирования, 2005. – 156 с.

2. Аванесов B.C. Этапы разработки теста. В сб. «Конструирование педагогических тестов по русскому языку как иностранному. Доклады и сообщения». ЦМО МГУ им. М.В.Ломоносова, 15-16 апреля 2003 г. – М., 2003.

3. Аванесов В.С. Композиция тестовых заданий. – М.: Центр тестирования, 2003. – 237 с.

4. Приказ Министерства образования и науки Украины №285 от 31.07.98. Приложение 1.

5. Эрдниев П.М. Укрупнение дидактических единиц как технология обучения. В 2-х частях. Ч. 1, с. 45. –М: Просвещение, 1992. -175 с.

6. Лукомский В.Я. Теория корреляции и ее применение к анализу производства. –М: Госстатиздат, 1961. - 376 с.

7. Гурман В.Е. Теория вероятностей и математическая статистика: Учеб. пособие для ВУЗов. – 8-е изд., стер. –М: Высшая школа, 2002. –479 с.

8. Дистанційне навчання: Умови застосування. Дистанційний курс: Навчальний посібник. 2-ге вид., доповн./ За ред. В.М. Кухаренка. –Харків: НТУ „ХПІ”, 2001. -282 с.

*[1] - В хорошо составленных заданиях неправильные ответы должны быть не менее «правдоподобны», чем правильные. Их не случайно называют дистракторами (distract – пер. с англ. – отвлекать, сбивать с толку, вводить в заблуждение), удачный подбор которых позволяет существенно снизить вероятность угадывания.

*[2] – общее число вариантов, которое можно получить из фасетного задания, подсчитывается путем перемножения числа элементов в каждом фасете задания. В рассмотренном примере – 2х3х4 = 24.

*[3] - некоторые специалисты предлагают рассчитывать объем (В) базы тестовых заданий (общее кол-во заданий, из которых формируются варианты теста) по формуле В = N´ 10, где N – количество часов, отведенное на изучение дисциплины (дисциплин)

*[4] - Цехмистро И.С. Технология изготовления деталей и сборки машин: учебное пособие. –Днепропетровск, ГИПОмет, 2002. -190 с. С. 77 – Вопросы для самопроверки знаний раздела 1.

*[5] - подробнее о слиянии документов можно прочесть в пособии «Текстовый редактор Word. Учебное пособие по курсу «Информатика и вычислительная техника» / Сост.: А.П. Егоров, Ю.А. Ступак, С.В. Бейцун, И.Г. Тригуб. _Днепропетровск: ИПК МК, 1999. -48 с. (§3.4, стр. 44)

*[6] - под «параллельностью» групп здесь следует понимать условие примерно одинакового уровня подготовленности студентов (испытуемых). Это могут быть различные группы одного и того же курса одного направления подготовки или специальности.

*[7] - для одной и той же группы результаты тестирования, проведенного в начале дня (утром), могут отличаться от результатов, полученных после нескольких часов занятий, когда сказывается фактор усталости.

*[8] - при проведении «настоящего» (не пробного) тестирования соблюдение данного условия не обязательно.

*[9] - приведенная в табл. 3.4 матрица является практически «идеальной». На практике же, особенно при пробном тестировании, достаточно часто встречаются ситуации, когда испытуемые отвечают на более трудные задания, не отвечая на сравнительно легкие (см. строку №6 таблицы).

*[10] - по данным табл. 3.4.

*[11] - Отсюда логически следует вывод о том, что в тест должны включаться вопросы, на которые испытуемый может знать ответ (то есть только те, которые изучались).

*[12] - кроме вступительного тестирования, при котором приемная комиссия устанавливает «проходной балл» по результатам тестирования и только потом оглашает результаты.

*[13] - если за отведенное время более 30-40 % испытуемых положительно отвечают практически на все вопросы, следует либо уменьшить продолжительность тестирования, либо пересмотреть содержание теста (возможно, тест слишком «легкий» для данной группы испытуемых). В противоположной ситуации (тест слишком «сложный») следует несколько увеличить продолжительность тестирования или «упростить» тестовые задания.

*[14] - имеется в виду только анализ структуры и профиля знаний. Текущий контроль успеваемости лежит вне сферы применения тестов (см. далее главу 5).

*[15] - дистанционный курс – это электронное издание, которое обычно содержит учебное пособие или конспект лекций, методические указания к лабораторным и/или практическим работам, вспомогательные и инструктивные материалы. Существует два вида дистанционных курсов – курсы для самостоятельной работы и курсы для групповой работы с участием преподавателя (тьютора). Обучение по курсам для групповой работы предусматривает наличие специализированной программы или комплекса программ, называемых системой дистанционного обучения. Подробнее см. [8].

⇐ Предыдущая 1 2 3 4 5 67