Ю.П. Зинченко, Н.Б. Березанская, И.А. Володарская, О.А. Тихомандрицкая, А.Г. Шмелев

Ю.П. Зинченко, Н.Б. Березанская, И.А. Володарская, О.А. Тихомандрицкая, А.Г. Шмелев

ОПЫТ ВНЕДРЕНИЯ КОМПЬЮТЕРИЗИРОВАННЫХ

ТЕСТОВЫХ ИСПЫТАНИЙ В СИСТЕМУ ИТОГОВОЙ

ГОСУДАРСТВЕННОЙ АТТЕСТАЦИИ СТУДЕНТОВ-

ПСИХОЛОГОВ

В статье освещаются результаты многолетнего опыта внедрения компьюте-ризированных тестов на выпускных курсах дневного, вечернего и спецотделения факультета психологии МГУ им. М.В. Ломоносова. Дается описание методики тестового испытания, характеристика созданного банка тестовых заданий, рассматриваются технологические и организационные вопросы (регламент для студентов-экзаменуемых, регламент учета результатов для преподавателей-экзаменаторов). Основное внимание уделяется статистическому анализу полу-ченных взаимозависимостей (статистических корреляций) между результатами тестовых испытаний, оценками на традиционном устном госэкзамене (по билетам) и суммарным баллом диплома, полученным студентом за все годы обучения (сумма оценок за все экзамены). В связи с систематической работой над качеством тестовых материалов корреляция между тестовыми баллами и суммарным баллом диплома (выбранным в качестве главного критерия валид-ности) год от года росла и достигла значений 0.72 (коэффициент Пирсона) и 0.86 (коэффициент Гилфорда для крайних групп). В то же время аналогичная корреляция для оценок на устном экзамене осталась на прежнем уровне (0.55—0.59 — коэффициент Пирсона в разные годы).

Ключевые слова: образовательное тестирование, компьютеризация, ком-пьютеризированное тестирование, традиционные экзамены, банк тестовых заданий, валидность.

Зинченко Юрий Петрович — докт. психол. наук, профессор, зав. кафедрой методо-логии психологии, декан ф-та психологии МГУ. E-mail: dek@psy.msu.ru

Березанская Наталья Борисовна — канд. психол. наук, доцент кафедры общей пси-хологии ф-та психологии МГУ. E-mail: bereznat@mail.ru

Володарская Инна Андреевна — канд. пед. наук, доцент кафедры психологии об-разования и педагогики ф-та психологии МГУ. E-mail: umspsy@mail.ru

Тихомандрицкая Ольга Алексеевна — канд. психол. наук, доцент кафедры социальнойпсихологии ф-та психологии МГУ. E-mail: tihomandr@rambler.ru

Шмелев Александр Георгиевич — докт. психол. наук, профессор кафедры психологиитруда и инженерной психологии ф-та психологии МГУ. E-mail: ags06@ht.ru

The article describes the results of the several years introduction of computerized testing in the outcome examinations for the final year students of psychological faculty of the Lomonosov Moscow State University. The procedure of testing, the features and the structure of the test item bank, technological and organizational issues are discussed including the procedural rules for students and professors. The main focus of the article is statistical analyses of the obtained correlations between test scores, traditional oral exam scores and academic history scores for all years in the university. As a result of the systematic improvements of test item bank the correlation between test scores and academic history scores increased each year and is equal last year 0.72 (the Pearson’s linear correlation coefficient) and 0.86 (Gulford’s coefficient for extreme groups). At the same time the analogical correlation for oral exams remained at the same level (0.55—0.59 the Pearson’s linear correlation coefficient).

Key words: educational testing, computerization, computerized testing, traditionalexaminations, test item bank, validation.

1. Организационный и научно-методический контекст ¹

В отечественном среднем и высшем образовании в последние два десятилетия наблюдается процесс активного внедрения метода тестов для измерительного контроля качества образования (Аванесов, 1994; Болотов, Шмелев, 2005). Это не в последнюю очередь вызвано тем обстоятельством, что приход в вузы и школы массовой вычислитель-ной техники позволил автоматизировать существенные элементы в процессах подготовки, проведения и обработки именно результатов тестирования. Одной из знаменательных вех в этом процессе служит широко внедренный и широко дискутируемый общероссийский проект ЕГЭ (Болотов и др., 2002; Челышкова, Шмелев, 2004), существенные элементы которого опираются на информационные технологии (хотя сам испытуемый получает, как правило, тестовые материалы в бланко-вой форме).

Но нужно ли внедрять метод тестов по принципу замещения — за-мены существующих традиционных форм контроля? Авторы настоящей статьи ставят своей целью обосновать подход к итоговой аттестации, при котором реализуется другой принцип — принцип дополнения. Практи-чески это означает, что тестовые испытания внедряются на факультете психологии МГУ не как единственный и не как важнейший, а лишь как один из вспомогательных этапов государственных экзаменов. На втором (решающем) этапе по-прежнему проводится устный традиционный экзамен. Такая схема явилась для авторов статьи — организаторов этого проекта на факультете — не только и не столько формой политического

¹ Настоящая статья была написана в октябре 2009 г., после завершения этапа освое-ния и внедрения тестовых компьютеризированных технологий в рамках госэкзаменов на факультете психологии МГУ. О следующем этапе — внедрении письменного экзамена в структуру госэкзаменов — мы будем писать в отдельной статье. (Примеч. авторов.)

компромисса между сторонниками и противниками тестовой формы контроля, сколько возможностью проведения полнокровного многолет-него эксперимента, дающего возможность сравнивать и статистически измерять достоинства и недостатки тестовой и традиционной форм не только по отношению друг к другу, но и по отношению к другим внешним критериям.

Еще в 1980-х гг. в рамках лекционно-практического курса «Основы психодиагностики» А.Г. Шмелев начал накапливать опыт применения компьютеризированных тестов как одной из процедур для оценки уров-ня усвоения студентами материалов учебного курса (Шмелев, 2002). Первые работы по внедрению такого подхода в систему госэкзаменов на факультете психологии МГУ были произведены А.А. Чумаковым (2007). В тестировании тогда принимали участие в основном студенты-добровольцы. Затем с появлением нацпроекта «Инновационное об-разование» в 2006—2007 гг. на факультете психологии МГУ была вы-полнена наиболее интенсивная работа по созданию банка тестовых заданий прежде всего по общей психологии (по программе госэкзамена для студентов-психологов), по упорядочению определенных подходов к проведению и обработке результатов тестовых испытаний. Главное заключалось в том, что применение тестовых испытаний стало обяза-тельным для всех студентов, а учет их результатов на устных экзаменах стал осуществляться в соответствии с официальным регламентом и был закреплен в ежегодно обновляемом приказе по факультету. Приобретение тестовыми экзаменами такого официального статуса потребовало тесного взаимодействия всех соавторов настоящей статьи, отвечавших за разные аспекты данного проекта: Ю.П. Зинченко — общее руководство проек-том в статусе декана факультета; Н.Б. Березанская — организация работы коллектива авторов тестовых заданий; И.А. Володарская — руководство Учебно-методическим советом факультета, на котором обсуждались и внедрялись принципиальные модели учета результатов тестирования; О.А. Тихомандрицкая — руководство Учебной частью, практическая организация взаимодействия различных групп исполнителей при реа-лизации проекта; А.Г. Шмелев — методическое и технологическое обе-спечение основных процедур, комплексная автоматизация процессов подготовки, проведения и обработки результатов тестовых испытаний.

Тем самым подход по принципу дополнения создал условия для реализации научно-практического эксперимента, итоги которого в данной статье авторы впервые попытались систематизировать.

Методика

Этап 1. Авторский цикл. Первым и существеннейшим методическиминструментом в рамках данного проекта явилась строго определенная методика и технология работы с авторами банка тестовых заданий. Была применена технология, отработанная А.Г. Шмелевым и сотрудниками

его лаборатории «Гуманитарные технологии» в течение многих лет, начиная с 1997 г., при подготовке компьютеризированной олимпиады «Телетестинг» для старшеклассников и абитуриентов (Шмелев и др., 1998). В ходе авторского цикла данного проекта к работе были при-влечены 22 независимых автора — опытные преподаватели и научные сотрудники ф-та психологии МГУ, которые создали в течение двух лет более 700 заданий по основным разделам общей психологии. Опыт разработки заданий по экспериментальной психологии, психодиаг-ностике, клинической, инженерной и экстремальной психологии в данной статье описываться не будет. Данная статья посвящена целиком разработке и проведению тестовых испытаний по общей психологии. В Приложении 1 к данной статье приводится подробный текст инструк-ции для автора, который позволит читателю не только познакомиться с основным содержательным смыслом авторского цикла в разработке заданий, но и при желании воспроизвести подобный подход.

Этап 2. Экспертный цикл. Существенным вторым этапом работыбыл так называемый «экспертный цикл». В нем принимали участие в значительной степени те же самые лица, что и в авторском цикле, но в данном случае они выступали экспертами при оценке заданий, соз-данных коллегами. Важно подчеркнуть, что экспертные работы были еще более формализованными и происходили в режиме диалога с ЭВМ: каждый эксперт решал и оценивал задания, которые предъявлялись ему на экране персонального компьютера (в режиме персонализированного парольного доступа к удаленному серверу с банком заданий)². Задания, при решении которых эксперты не находили правильного ответа согла-сованным образом (по принципу квалифицированного большинства в 66% ответов), либо корректировались, либо удалялись из банка заданий. В результате экспертного цикла были получены 600 заданий, удовлетво-ривших большинство экспертов по качеству и дающих согласованные ответы. Это десятикратное превышение численности рабочего банка заданий над числом заданий в индивидуальном варианте(600 против 60) явилось залогом обеспечения достоверности³ (информационной безопасности) при реализации тестирования.

Этап 3. Проведение тестирования. Каждый год в течение 5 лет(начиная с 2005 г.) каждая экзаменационная сессия преследовала две цели: а) оценить знания студентов-выпускников данного года, б) усо-вершенствовать банк заданий на основе статистики ответов. Возмож-

² Данные работы осуществлялись с использованием системы Интернет-сервисов для сбора и анализа экспертных оценок на сайте www.ht-line.ru, разработанных в лаборатории «Гуманитарные технологии» и любезно предоставленных ф-ту психологии МГУ.

³ Напомним, что достоверностью называется такое свойство теста, которое обеспе-чивает защиту процедуры от преднамеренных и непреднамеренных искажений. Переме-шивание заданий, выбранных случайным образом из банка, обеспечило в нашем проекте защиту от применения грубых шпаргалок в формате «номер вопроса — номер ответа».

ность самосовершенствования методики на основе статистики — это одно из принципиальных достоинств метода тестов, позволяющего формализовать количественно-статистическую обработку результатов и проанализировать качество каждого отдельного тестового задания (вопроса). Поэтому само проведение тестирования в данном случае является одним из ключевых источников информации для повышения качества методики на следующий год.

Тестирование производилось в компьютерных классах факультета психологии в последние годы в течение 1—2 дней в феврале (второй день — резервный) примерно за 10—14 дней до устного этапа госэкзаме-на. В ходе теста каждому студенту на экране компьютера предъявлялись 60 заданий⁴, случайным образом отобранных из банка заданий, причем ровно по 10 заданий на каждый из 6 крупных разделов (см. перечень разделов в Приложении 1). Время на выполнение задания из одного раздела ограничивалось 8 мин., тем самым общее время на тест не могло превышать 48 мин. и в среднем занимало порядка 40 мин. Важно подчеркнуть, что подготовленность студентов к такому испытанию обе-спечивала целая серия курсов в предыдущие годы обучения (среди них «Основы психодиагностики», «Экспериментальная психология» и др.), где подобная процедура используется в качестве одного из инструмен-тов текущего и итогового контроля. Также важно, что в течение месяца перед тестовым экзаменом студенты получали неограниченный доступ на интернет-портал факультета www.psy.msu.ru, на котором размещается открытая демоверсия теста.

Результаты и их анализ

Общие выводы и перспективы

По характеру распределения тестовых баллов (близкому к нормаль-ному распределению), по результатам проверки надежности и валид-ности тестовых испытаний можно сделать однозначный вывод, что мы получили достойный инструмент для педагогических измерений качества образования, который и может, и должен быть использован для итоговой аттестации как необходимый этап в системе различных испытаний.

Есть, конечно, «горячие головы», которые предложили таким образом проинтерпретировать высокую корреляцию между тестом и суммарным баллом за все годы обучения (значение, близкое к 0.9): а не является ли это свидетельством того, что тест вообще не нужен, ведь он фактически дублирует ту информацию, которая собрана за все годы. Но именно тестовое испытание способно на самом последнем этапе выявить те важные 10—15% исключений, когда очень слабые ответы студента на самые очевидные вопросы позволяют усомниться в том, насколько корректными были многие оценки, полученные этим сту-дентом в течение 5 лет. Итоговая аттестация для того и предназначена, чтобы не только мотивировать учащихся на сохранение знаний, которые должны быть предъявлены в определенный контрольный момент (а не учиться по принципу «сдал — забыл»), но и осуществлять контроль доброкачественности выполнения своих профессиональных обязанно-стей всем педагогическим коллективом образовательного учреждения. Кстати, высокая корреляция между результатами теста и суммой баллов за все годы позволяет «страховать» и тестовые технологии от каких-то «чудовищных ошибок» (вызванных, например, неожиданным провалом сильного студента в результате волнения, плохого самочувствие и т.п.) Все случаи резкого расхождения суммарного балла диплома и результа-тов тестирования должны рассматриваться государственной комиссией индивидуально и быть предметом особого внимания.

Таким образом, наш опыт параллельного применения двух про-цедур — традиционного устного экзамена и компьютеризированного тестового испытания — по многим параметрам выявил однозначное превосходство тестового испытания. Но на основании этого результата мы не собираемся настаивать на замене устной процедуры. Наоборот, параллельное использование двух процедур дает возможность исполь-зовать тестовые данные как основание для совершенствования устных экзаменов с целью преодоления тех недостатков, которые им давно свойственны и в целом хорошо известны (включая весьма либеральное отношение экзаменационных комиссий к тому, что некоторые студенты отвечают на вопросы билетов, не отрывая глаз от своих записей, которые при проверке оказываются удивительно однотипными).

В свою очередь само тестирование вовсе нельзя считать завер-шенной и безупречной процедурой, не нуждающейся в улучшении

и обогащении новыми элементами и идеями. Для более надежного моделирования профиля успешности по отдельным темам требуется расширение банка заданий (примерно до 1000 заданий) и удлинение сеанса тестирования до 90 заданий (к примеру, в западных сертифи-кационных тестовых экзаменах психологи выполняют до 300 заданий в течение одного сеанса, продолжающего до 4 часов). Также имеется необходимость моделирования так называемых кейс-тестов, предна-значенных для диагностики навыков практического применения знаний при решении прикладных задач.

Приложение 1

Ю.П. Зинченко, Н.Б. Березанская, И.А. Володарская, О.А. Тихомандрицкая, А.Г. Шмелев

12 3 4 5 6 Следующая ⇒