Архитектура Аудит Военная наука Иностранные языки Медицина Металлургия Метрология Образование Политология Производство Психология Стандартизация Технологии |
Анализ связей тестовых оценок с суммарным баллом диплома
В качестве этого третьего критерия был взят так называемый «сум-марный балл диплома» — сумма оценок, полученных каждым студентом на всех экзаменах (их около 40) за все 5 лет обучения на факультете. В
10 ВМУ, психология, № 2
западной литературе этот критерий известен под названием “academic history score” («балл за всю историю обучения»). Он часто используется в тестологических исследованиях прогностической валидности тестов для абитуриентов и студентов как более объективный инструмент, чем оценка за один единственный экзамен.
В табл. 2 мы видим, что коэффициент корреляции теста с третьим критерием неуклонно рос все эти годы (начиная с 2005 г., который мы тоже привлекли в данном случае для анализа, чтобы показать тен-денцию), тогда как тот же коэффициент корреляции между устными оценками и суммарным баллом диплома фактически оказался на одном уровне, немногим более высоком, чем корреляции между тестом и устным экзаменом. Особенно высокий рост корреляций заметен для «краев» тестовой шкалы, т. е. для явных «отличников» (верхние 16% выборки) и для «двоечников» (нижние 16% по тестовому баллу).
Таким образом, работа по совершенствованию тестовых заданий и самой процедуры тестирования дала очевидные плоды: валидностьименно теста по отношению к внешнему критерию за годы наблюдений возросла, тогда как невысокая валидность устного экзамена осталась на прежнем уровне.
Анализ надежности и прогностической
Устойчивости тестовых результатов
Последний вид анализа, который мы проделали, касается такой ключевой характеристики любой тестометрической процедуры, как надежность, или ретестовая устойчивость. В 2005 г. А.А. Чумаков про-вел подобный анализ, пригласив сразу после устного экзамена добро-вольцев — тех студентов, которые откликнулись на просьбу проверить устойчивость теста к перетестированию. В таком перетестировании приняли участие 38 человек. Надо подчеркнуть, что, несмотря на низкую мотивацию студентов (тестирование производилось в тот же день, что устный экзамен, сразу после его сдачи), был получен вполне приличный коэффициент корреляции между первым и повторным тестированием
(r=0.68). Интервал между первым и повторным тестированием в данном случае равнялся 2 неделям — стандарт для такого рода проверочных процедур.
В 2008 и 2009 гг. удалось собрать новые данные такого типа, но на более значительном временнó м интервале между первым и повторным тестированием. В сентябре повторному тестированию по точно такой же программе-методике (при том же банке заданий) подверглись вы-пускники факультета, поступавшие в аспирантуру (тестирование было включено в программу вступительных экзаменов в аспирантуру). Итого интервал между первым и вторым тестированием составлял уже не 2 недели, а целых 7 месяцев. Подобную проверку можно назвать по-другому. Это уже не столько проверка на надежность, сколько проверка на прогностическую устойчивость тестовых оценок. Ведь за 7 месяцев, да к тому же в такой насыщенный жизненный период, как окончание университета, происходит немало значимых событий (сюда относятся защита дипломной работы, попытки трудоустройства и другие события, возможно, и в личной жизни).
За 2 года были собраны данные по 57 студентам, которые поступали
в аспирантуру. Коэффициент линейной корреляции Пирсона для нор-мализованных тестовых баллов оказался равным 0.72. Такой результат следует признать высоким. Почему? Казалось бы, это весьма умеренное значение на фоне требований к более высокой диахронной устойчиво-сти тестов достижений (устойчивость профессиональных тестов такого рода должна находиться в диапазоне 0.8—0.9). Но следует учесть, что рекомендацию в аспирантуру получают в основном очень сильные сту-денты. Среди попавших в данную выборку преобладали отличники (уже по результатам первого тестирования). Тем самым речь идет заодно и о различительной прогностичности теста именно в тех диапазонах шкалы, которые прилегают к высокому полюсу. Например, для сравнения ана-логичный коэффициент корреляции для устного экзамена (на интервале
в 7 месяцев) оказался близким к нулю (всего лишь 0.10, что незначимо отличается от нуля на выборке в 57 человек). Почему мы получили такое превосходство теста в данном случае? Дело в том, что почти все поступаю-щие в аспирантуру получали на устном госэкзамене оценки «отлично», поэтому никакой дифференцирующей прогностической силы эти оценки уже не могли нести. Именно эти причины (низкая дифференцирующая способность устных экзаменов) и подталкивает руководство факультета к внедрению таких процедур, которые гарантируют различение подготовки претендентов в условиях конкурса.
4. Опросы студентов и преподавателей, мониторинг общественного мнения
Любая инновация должна быть так или иначе поддержана боль-шинством сотрудников коллектива. В противном случае коллектив
найдет возможность в явном или неявном виде отказаться от вне-дрения инновации, т.е. так трансформировать логику проведения и использования формализованных процедур, что они лишатся своего смысла. Поэтому при разработке и внедрении новой технологии оценивания качества подготовки студентов мы постарались по воз-можности отслеживать динамику отношения к нашей инновации со стороны студентов и преподавателей. Для этого проводились опросы как в режиме онлайн (на портале факультета психологии), так и в ходе очных встреч и собраний (на ряде заседаний Ученого совета факуль-тета, а также, например, на расширенном профессорском собрании в марте 2008 г.).
Из полученной нами статистики ответов на проведенные опросы среди студентов и преподавателей в динамике в течение трех лет сле-дует, что в 2007 г. студенты значительно более скептически относились
к тестированию в ходе экзамена, чем преподаватели, которые в целом гораздо более явным большинством поддержали инновацию. Но в 2008—2009 гг. прослеживается положительная динамика в установках студентов. С чем это связано и как это объяснить? Ведь каждый год опрашивались новые выпускники, которым приходилось каждый раз впервые проходить подобную процедуру (на уровне госэкзамена). Одно из объяснений можно свести к достаточно банальному эффек-ту привыкания. Общественное мнение в студенческой среде тоже инерционно. Доверие к тому, что за низкие баллы по тестам никто не пострадает, возникло не сразу. Но постепенно год от года, по мере того как тест стал приносить скорее позитивные сдвиги в итоговых оценках студентов, отношение стало более позитивным. И что даже важнее: отношение стало меньше зависеть от самооценки успеш-ности собственного выполнения тестового испытания. Например, студенты 2009 г. оценили в целом свою успешность явно ниже, чем студенты 2007 г., но при этом выразили более позитивное отношение
к процедуре тестирования.
Многочисленный выбор преподавателями в 2009 г. ответа «не участвовал в приемке экзаменов» вызван был тем, что именно в 2009 г. круг экзаменаторов впервые (за последние десятилетия) был строго ограничен исключительно профессорским составом, а получить от профессорского состава ответы на онлайн-опрос оказалось делом более трудным. Ответы преподавателей в 2008 г. иллюстрируют явный импульс со стороны коллектива в пользу не только формального учета результатов тестирования в итоговой оценке, но и прямого знакомства экзаменаторов с результатами тестирования непосредственно в ходе экзамена. Именно в результате такого мнения коллектива, высказан-ного на профессорском собрании в марте 2008 г., в 2009 г. было решено вернуться к практике открытого информирования экзаменаторов о результатах тестирования.
Общие выводы и перспективы
По характеру распределения тестовых баллов (близкому к нормаль-ному распределению), по результатам проверки надежности и валид-ности тестовых испытаний можно сделать однозначный вывод, что мы получили достойный инструмент для педагогических измерений качества образования, который и может, и должен быть использован для итоговой аттестации как необходимый этап в системе различных испытаний.
Есть, конечно, «горячие головы», которые предложили таким образом проинтерпретировать высокую корреляцию между тестом и суммарным баллом за все годы обучения (значение, близкое к 0.9): а не является ли это свидетельством того, что тест вообще не нужен, ведь он фактически дублирует ту информацию, которая собрана за все годы. Но именно тестовое испытание способно на самом последнем этапе выявить те важные 10—15% исключений, когда очень слабые ответы студента на самые очевидные вопросы позволяют усомниться в том, насколько корректными были многие оценки, полученные этим сту-дентом в течение 5 лет. Итоговая аттестация для того и предназначена, чтобы не только мотивировать учащихся на сохранение знаний, которые должны быть предъявлены в определенный контрольный момент (а не учиться по принципу «сдал — забыл»), но и осуществлять контроль доброкачественности выполнения своих профессиональных обязанно-стей всем педагогическим коллективом образовательного учреждения. Кстати, высокая корреляция между результатами теста и суммой баллов за все годы позволяет «страховать» и тестовые технологии от каких-то «чудовищных ошибок» (вызванных, например, неожиданным провалом сильного студента в результате волнения, плохого самочувствие и т.п.) Все случаи резкого расхождения суммарного балла диплома и результа-тов тестирования должны рассматриваться государственной комиссией индивидуально и быть предметом особого внимания.
Таким образом, наш опыт параллельного применения двух про-цедур — традиционного устного экзамена и компьютеризированного тестового испытания — по многим параметрам выявил однозначное превосходство тестового испытания. Но на основании этого результата мы не собираемся настаивать на замене устной процедуры. Наоборот, параллельное использование двух процедур дает возможность исполь-зовать тестовые данные как основание для совершенствования устных экзаменов с целью преодоления тех недостатков, которые им давно свойственны и в целом хорошо известны (включая весьма либеральное отношение экзаменационных комиссий к тому, что некоторые студенты отвечают на вопросы билетов, не отрывая глаз от своих записей, которые при проверке оказываются удивительно однотипными).
В свою очередь само тестирование вовсе нельзя считать завер-шенной и безупречной процедурой, не нуждающейся в улучшении
и обогащении новыми элементами и идеями. Для более надежного моделирования профиля успешности по отдельным темам требуется расширение банка заданий (примерно до 1000 заданий) и удлинение сеанса тестирования до 90 заданий (к примеру, в западных сертифи-кационных тестовых экзаменах психологи выполняют до 300 заданий в течение одного сеанса, продолжающего до 4 часов). Также имеется необходимость моделирования так называемых кейс-тестов, предна-значенных для диагностики навыков практического применения знаний при решении прикладных задач.
Приложение 1
Популярное:
|
Последнее изменение этой страницы: 2017-03-08; Просмотров: 789; Нарушение авторского права страницы