ТЕМА 2. ХАРАКТЕРИСТИКИ І ТИПИ ПЕДАГОГІЧНИХ ТЕСТІВ

1. Поняття валідності, надійності, об’єктивності, справедливості та ефективності тестів.

2. Типи педагогічних тестів. Стандартизовані тести.

Поняття валідності, надійності, об’єктивності, справедливості та ефективності тестів.

Вибір того чи іншого методу вимірювання знань ґрунтується на критеріях, які визначають їх якість. Найважливішими критеріями є валідність, об’єктивність, надійність і точність. Дамо їх визначення та означимо зміст кожного з них.

Валідність.

Найбільш фундаментальним є критерій валідності. Цей термін походить від англійського і означає обґрунтований, дійсний, придатний, той, що має силу. Найбільш вдале визначення валідності педагогічного тесту дала А. Анастазі [6].

Валідність тесту — це поняття, яке визначає, що вимірює тест і наскільки якісно це здійснюється” (А. Анастазі).

Валідність – показник того, що тест дійсно оцінює знання і уміння, для перевірки яких він призначений. Якщо експерти (наприклад, учителі, методисти) згодні з тим, що тест добре оцінює знання й уміння з певної теми, для якої він створений, то його можна вважати валідним.

Поняття валідність використовується для загальної характеристики тесту в аспекті відповідності одержаних результатів меті та вимогам оцінювання. Ми часто можемо чути, що тест, за яким проводилося тестування, не валідний. Що це означає? А те, що одержані результати не вимірюють того, що було визначено метою тестування. Це може бути наслідком дії кількох чинників. Наприклад, невідповідності інструменту вимірювання (тесту) меті оцінювання.

Наведемо декілька прикладів. Тест побудовано з тестових завдань на розуміння матеріалу, а навчання було спрямовано лише на знання базової інформації. Метою оцінювання є рівень виконання певних навичок, а тест базується на вимірюванні знань про виконання цих навичок. Завдання, які входять до тесту не е стандартизованими, отже, невалідність результатів може бути наслідком неякісних тестових завдань.

І.Є.Булах та М.Р.Мруга пропонують підхід до аналізу якості тестів і тестових завдань на основі визначення їх головних характеристик і параметрів, коли загальне поняття валідності щодо процесу вимірювання і оцінювання рівня знань диференціюється за функціональною ознакою таким чином:

— валідність методу (валідність змісту відповідності, прогнозу);

— валідність тесту (валідність тестових завдань, процедури тестування, процедури оцінювання).

Валідність методу – це відповідність того, що вимірюється цим методом, тому, що він має вимірювати. Отже, критерій валідності встановлює сферу дійсності, для якої метод дає статистично достовірні результати.

Валідність методу при вимірюванні успішності навчання можна класифікувати за такими критеріями:

— валідність змісту;

— валідність відповідності;

— валідність прогнозу.

Валідність, визначена за допомогою узгодженої думки спеціалістів, часто називається змістовою або очевидною. Вона означає, що тест вимірює саме те, для чого він призначений.

Валідність відповідності — це відповідність результатів вимірювання та оцінювання, одержаних різними методами.

Валідність змісту і відповідності може бути кількісно визначено через коефіцієнт валідності. Але необхідно зауважити, що розраховується коефіцієнт валідності опосередковано — як коефіцієнт кореляпіі між результатами тестування та результатами інших вимірювань, здійснених на тій самій групі з того самого предмета іншим методом. Результат тестування можна вважати валідним при коефіцієнті кореляції більшому ніж 0,6.

Отже, можна дати наступне визначення коефіцієнта валідності. Коефіцієнт валідності дорівнює коефіцієнту кореляції між результатами, одержаними різними методами за однакових умов, і показує, наскільки збігаються результати вимірів.

О6’єктивність.

Ще один критерій методу вимірювання – об’єктивність. Він показує, наскільки мінімізовано вплив суб’єктивних факторів. Об’єктивність досягається шляхом стандартизації умов проведення вимірювання, умов оцінювання, умов аналізу результатів і забезпечується за допомогою об’єктивності проведення вимірювання, об‘єктивності обробки даних та об‘єктивності інтерпретації результатів.

Критерії валідності й об’єктивності фактично первинними, оскільки порушення одного з них призводить до порушення критеріїв надійності та точності, які, незважаючи на їх важливість, виступають як похідні.

Забезпеченню критеріїв валідності й об’єктивності сприяють певні регламентуючі документи, якими визначаються вимоги до побудови тестів, до процедур проведення тестування та вимоги до фахівців, що застосовують цей метод.

Надійність.

Надійність – показник точності та стійкості результатів тесту при його багаторазовому застосуванні. Він означає ймовірність одержання учнями однакових результатів за виконання тесту у різноманітних ситуаціях тестування, зокрема при оцінюванні різними експертами (вчителями). Тест вважається надійним, якщо різні вчителі однаково оцінюють його виконання учнем.

Цей показник впливає на точність, з якою можна виміряти ту чи іншу конкретну ознаку. Перевірка надійності методу стосується насамперед співставлення результатів при повторних вимірах. Надійність методу залежить від:

- об’єктивності методу (об’єктивності процедур тестування);

- параметрів інструменту вимірювання (якості тесту);

- стабільності характеристики, що вимірюється.

Ступінь надійності методу визначаться за допомогою коефіцієнта надійності.

Коефіцієнт надійності (R) дорівнює коефіцієнту кореляції між результатами, отриманими однаковим методом за однакових умов і показує наскільки збігаються результати вимірів.

Коефіцієнт надійності змінюється від 0 до 1 і розраховується з використанням певних методик. Найчастіше для його розрахунку використовують рівняння Спірмена — Брауна, або коефіцієнт α-Кронбаха.

При створенні тестів, які використовуються під час широкомасштабних тестувань (а до них належать передусім національні та галузеві тестування), розрахунок коефіцієнта надійності є обов’язковим. Під час тестувань, за результатами яких приймаються адміністративні висновки для екзаменованих, цей коефіцієнт має бути більшим ніж 0,9.

Надійність тесту свідчить про рівень надійності кількості балів, набраних окремими кандидатами, — так само, як термометр (вимірювальний інструмент), який завжди показує 0 °С, коли починає танути лід (кандидат, якого оцінюють), а не так, що інколи 0 °С, а інколи +1 °С. В ідеалі це слід вимірювати шляхом подвійного проходження одного й того ж тесту одними і тими ж самими кандидатами і перевірити, наскільки ці кандидати отримали однакову кількість балів, допускаючи, що перше тестування не вплинуло на рівень умінь і навичок кандидатів. Більш реалістичний спосіб — порівняти порядок кандидатів за сумою набраних балів за одним тестом із порядком, отриманим за результатами визнаного, аналогічного, проте іншого тесту. У багатьох випадках це неможливо. Надійність тесту можна оцінити шляхом обчислення його однорідності: наскільки всі завдання тесту однаковою мірою впливають на порядок? або хто відповідає правильно на складні запитання: сильніші кандидати чи навпаки? або чи існує кореляція між складністю завдання та рівнем здібностей кандидатів, які дають правильну відповідь? Тест із багатьма завданнями, де кореляція між складністю завдань та здібностями кандидатів невисока, навряд чи можна вважати надійним. Для професійних тестів слід зазначати міру однорідності, а також оцінку довірчих інтервалів набраних балів.

Справедливість — це, очевидно, той аспект якості, який найчастіше є темою публічних дискусій про великомасштабні тести з високими ставками. Інколи слово «несправедливий» вживають для позначення браку валідності змісту, оскільки до тесту увійшли завдання, що виходять за межі того, чому звичайно навчають. Проте доволі часто дискусії точаться навколо вислову «несправедливий щодо етнічних меншин» (культурне упередження або «несправедливий щодо дівчат» (гендерне упередження, див. ілюстрацію 2).

Справедливі тести мають супроводжуватись звітами, у яких пояснюється, що зроблено для зменшення такого упередження, та які існують докази на користь того, що ці зусилля виявилися успішними. Сюди можуть входити складні процедури визначення того, чи отримають якісь підгрупи занижені або завищені оцінки за певними завданнями відносно своїх результатів за іншими завданнями. І хоча для розуміння звітів з оцінювання справедливості тесту, можливо, необхідно мати деякі спеціальні знання, будь-який пересічний користувач може перевірити саме існування таких звітів і коментарів незалежних експертів до них.

Прагнення досягти найвищої можливої валідності може спричинити значний тиск на ефективність тестування. Я часто згадую свого колишнього колегу, учителя французької мови, для якого ідеальним екзаменом було б посадити студента на терасі в Парижі, дати йому завдання замовити пляшку вина і — для найвищої оцінки — подивитись, чи зможе він випити цю пляшку вина з чарівною юною француженкою, що сидить за сусіднім столиком. Висока валідність, висока об’єктивність, проте, на жаль, — ніякої ефективності і доволі сильне гендерне упередження...

⇐ Предыдущая 1 2 3 4 567 8 9 10 Следующая ⇒

Последнее изменение этой страницы: 2019-06-09; Просмотров: 107; Нарушение авторского права страницы