Оценка эффективности тестирования с помощью инструментов психометрики

Фото: Lukas Blazek

Геннадий Поросенков, руководитель команды обучения и сертификации клиентов и партнеров Yandex Cloud

Валентина Селезнева, лид-методолог команды обучения и сертификации клиентов и партнеров Yandex Cloud

Елена Сидоркина, психометрик команды обучения и сертификации клиентов и партнеров Yandex Cloud

В статье «Multiple Choice Questions: когда и как проектировать?» мы рассмотрели основные рекомендации по составлению вопросов с множественным выбором ответа. В рамках этого материала посмотрим, как оценить, что вопросы, которые вы составили, действительно работают. Небольшой дисклеймер: здесь нам помогут инструменты психометрики. В частности, мы рассмотрим, как с помощью КТТ (классической теории тестирования) можно анализировать эффективность вопросов, на которые отвечает небольшая выборка людей (например, студенты одной группы).

Математически КТТ основана на предположении о том, что наблюдаемый балл (X) равен сумме ненаблюдаемого «истинного балла» (Т) и ошибки измерения (Е). Наблюдаемый (реальный) балл — это сырой балл, который получен испытуемым по результатам прохождения тестирования. Истинный балл — гипотетический балл, который рассчитывается как среднее значение распределений полученных баллов. Ошибка измерения — разница между наблюдаемым и истинным баллами. Основной принцип этой теории тестирования — если люди, проходившие тест, выбраны случайно, то и истинный балл также будет случайной величиной, а ошибки нормально распределены, не коррелируют между собой и с истинным баллом и имеют ожидаемое значение, равное нулю.

В классической теории тестирования (КТТ) баллы за тест зависят от трудности заданий, а трудность заданий зависит от выборки тестируемых. То есть если один и тот же тест сперва сдадут все двоечники из 9-х классов школы N, а затем все отличники из 9-х классов школы N, то результаты психометрического анализа в КТТ покажут нам разные значения трудности заданий. Для двоечников задания будут трудными, для отличников — легкими. Можем ли мы перенести эти выводы на всех девятиклассников в стране, городе или районе? Конечно, нет. Зависимость от выборки — это большой недостаток КТТ. К тому же КТТ не позволяет учитывать индивидуальные различия в ответах тестируемых.

Несмотря на эти ограничения, классическая теория тестирования всё равно широко используется на практике, поскольку она проста в применении, не требует сложных математических методов и может быть достаточно эффективной для целей, не требующих высокой степени точности и адаптации результатов. Кроме того, КТТ предоставляет базовые методики, которые могут быть полезны для начальной оценки и анализа тестовых результатов.

Исходя из основных теоретических принципов КТТ, давайте определим параметры, которые следует учитывать при стандартном анализе тестовых заданий: валидность и надежность, а также трудность и дискриминативность заданий.

Валидность

Валидность означает то, насколько можно доверять выводам, сделанным на основе баллов теста. Иными словами, этот показатель отвечает на вопрос «Действительно ли этот тест измеряет то, что мы хотим измерить?».

Представьте, что вы хотите измерить рост человека, но используете для этого весы. Ваша измерительная техника может быть очень точной и хорошо откалиброванной, но результат, который вы получаете — это вес, а не рост. Это показывает, что баллы теста не соответствуют цели измерения. В этом случае принято говорить, что тест не валиден.

Однако вместо того чтобы просто клеймить тест валидным или не валидным, гораздо важнее определить степень его валидности. В современных интерпретациях валидность принято рассматривать как гипотезу, которую, подобно исследовательской, необходимо подтвердить или опровергнуть собранными доказательствами. Даже с использованием множества методов оценки валидности достичь абсолютной валидности невозможно, поэтому главная цель — собрать максимальное количество различных доказательств валидности на всех ступенях разработки теста.

Современный подход к валидности теста рассматривает ее как комплексный параметр, оцениваемый не только количественно (например, статистическими показателями), но и качественно (например, экспертным анализом содержания теста). Давайте рассмотрим, на чем же эти доказательства могут быть основаны и что нужно сделать, чтобы их собрать.

  • Содержание теста (Evidence based on test content): насколько содержание теста отражает область знаний или умений, которую он должен измерять. Например, тест по географии должен содержать вопросы о странах, реках, горах, а не о правилах пунктуации.
Как получить это доказательство валидности: привлечь экспертов, которые оценят соответствие заданий теста учебной программе или профессиональным стандартам.

  • Когнитивные процессы, участвующие в решении заданий (Evidence based on response processes): здесь анализируется, как именно испытуемые отвечают на вопросы. Например, если тест на креативность предполагает нестандартное мышление, а участники просто выбирают первый попавшийся ответ, то валидность под вопросом.
Как получить это доказательство валидности: использовать метод «думай вслух», наблюдение за поведением испытуемых или анализ их черновиков. Также можно отслеживать цифровые следы (логи) для обнаружения аномального поведения участников тестирования, такого как угадывание ответов, списывание или ответы наобум.

  • Последствия использования результатов тестирования (Evidences based on consequences of test use): какие последствия влечет использование результатов теста. Достигаются ли поставленные цели? Здесь важно учитывать как запланированные, так и непредвиденные последствия.
Например, в школе хотят ввести входное тестирование по математике для пятиклассников в начале учебного года. Цель тестирования — выявить сильные и слабые стороны каждого ребенка и разработать индивидуальные рекомендации по обучению. Такое тестирование может иметь как положительные, так и отрицательные последствия. С одной стороны, результаты теста позволят учителям адаптировать программу обучения под потребности каждого ученика. С другой стороны, если результаты теста будут использованы для сравнения учеников между собой, это может привести к стигматизации учащихся с низкими результатами. Они могут столкнуться с негативным отношением со стороны одноклассников и учителей, что снизит их самооценку и мотивацию. Поэтому важно помнить, что решения, основанные на результатах теста, должны быть обоснованы и этичны.

Как получить это доказательство валидности: использовать опросы и интервью с тестируемыми и специалистами для оценки результатов и влияния теста.

Также существуют и другие доказательства валидности теста, например доказательства, основанные на связи с другими конструктами (как результаты теста соотносятся с результатами других тестов или с внешними критериями) и на внутренней структуре (насколько структура теста соответствует структуре измеряемого конструкта). Обычно эти виды валидности предполагают использование статистических методов, таких как корреляционный и факторный анализы. Если в вашей команде есть возможности для применения этих методов, крайне рекомендуется использовать и их. Так вы сможете собрать еще больше свидетельств валидности.

Надежность

Надежность и валидность тестовых результатов — фундаментальные понятия, определяющие качество любого теста и его пригодность для использования в конкретных целях. Без надежности и валидности интерпретация результатов теста становится бессмысленной, а принимаемые на их основе решения — необоснованными. Сейчас мы поговорим о тестовой надежности.

В широком понимании надежность является показателем точности и воспроизводимости результатов теста. Другими словами, надежность теста означает его способность давать стабильные результаты несмотря на влияние случайных факторов.

Существует несколько способов оценки надежности, однако единого универсального метода оценки надежности нет. Наиболее распространенный способ оценки надежности в рамках КТТ — показатель внутренней согласованности теста. Под внутренней согласованностью мы имеем в виду, насколько согласованы элементы теста между собой, то есть насколько все задания измеряют одно и то же скрытое свойство. Для этого используется коэффициент, называемый альфа Кронбаха (α). Стоит подчеркнуть, что альфа Кронбаха оценивает общую надежность теста — при условии, что все задания измеряют один и тот же конструкт.

На надежность теста влияют три основных фактора:
  • Количество заданий. Чем больше заданий в тесте, тем точнее и надежнее будут результаты — с учетом того, что задания действительно измеряют интересующий нас конструкт.
  • Качество заданий. Чем лучше задания различают сильных и слабых, тем выше надежность.
  • Стабильность измеряемого свойства. Чем стабильнее измеряемая характеристика, тем выше надежность теста. Изменчивые характеристики, такие как настроение, сложнее измерить надежно.
Расчет альфы Кронбаха в основном требует некоторого понимания статистики и использования математических формул. Однако для людей, незнакомых со статистикой, есть инструменты и программное обеспечение, которые могут значительно упростить эту задачу. Например, программы, такие как Microsoft Excel или Google Sheets, позволяют выполнить расчеты благодаря встроенным функциям, а в интернете можно найти готовые шаблоны и инструкции по расчету альфы Кронбаха в этих таблицах. Также можно воспользоваться онлайн-калькулятором, для этого достаточно вбить в поисковике «Cronbach’s alpha calculator». Можно использовать этот.

Как же понять, что ваш тест достаточно надежен? Альфа Кронбаха лежит в диапазоне от 0 до 1, где 0 означает полностью случайный результат (то есть результат теста состоит только из случайной ошибки), а 1 — полное отсутствие ошибки измерения. Конечно, идеальная надежность недостижима, так как поведение тестируемых довольно изменчиво и не может быть воспроизведено в точности одинаково несколько раз подряд. Значение альфы Кронбаха, равное 0,70, часто называют приемлемым, а ниже 0,70 — недостаточным. Однако это упрощенный подход. Высокие значения указывают на высокую надежность, но требования к ней зависят от контекста. Как правило, коэффициент надежности 0,80 или выше считается приемлемым для большинства тестов высоких ставок. В условиях профессиональных сертификационных и лицензионных экзаменов обычно стремятся к еще более высокой надежности — 0,90 и выше. В то же время для менее важных оценок, например опроса удовлетворенности клиентов, показателя 0,60 может быть вполне достаточно для получения полезной информации. И помните, даже неидеальные данные лучше, чем полное их отсутствие!

Трудность

Трудность в рамках КТТ, или p-value — это характеристика, которая отражает уровень решаемости задания в этой статистической выборке. Иными словами, это доля правильных ответов, которая вычисляется по формуле:
кол-во решивших ÷ кол-во решавших.

Чем выше доля правильных ответов, тем легче задание. Для расчета показателя требуется разделить количество правильно выполнивших задание на количество всех испытуемых в выборке, кто пробовал решить это задание.

Значение показателя трудности находится в диапазоне от 0 до 1. Например, если коэффициент равен 0,7, это означает, что 70% испытуемых дали правильный ответ на вопрос, и он считается легким, в то время как коэффициент, равный 0,15, говорит о том, что только 15% смогли дать правильный ответ, и такое задание считается довольно трудным.

Задания с показателем 0 и 1 удаляются из теста, так как они не дают никакой полезной информации о тестируемых: абсолютно все тестируемые либо справляются, либо не справляются, следовательно, такие задания не различают сильных и слабых. Задания с коэффициентом 0,7 и выше считаются легкими, так как 70% тестируемых успешно справляются с ними. Трудность от 0,3 до 0,7 считается оптимальной, поскольку задания такого уровня успешно решаются достаточным количеством участников. Если показатель трудности менее 0,3, это означает, что только 30% тестируемых справляются, и такие задания слишком трудны. Если задания выходят за рамки 0,3 и 0,7, необходимо рассмотреть их доработку, чтобы обеспечить оптимальную трудность теста.

Как правило, в тест стоит включать как легкие задания (с высоким коэффициентом решаемости), так и более сложные (с низким коэффициентом решаемости), чтобы получить более полное и точное представление о знаниях и навыках тестируемых, охватывая весь спектр освоения материала.

Конечно, ожидаемая трудность заданий в тесте зависит от цели тестирования. Если ваша цель — определить начальный уровень знаний и выявить пробелы, трудность заданий может варьироваться от низкой (0,7) до средней (0,5–0,7), чтобы гарантировать, что тестируемые могут продемонстрировать то, что уже знают, и обнаружить области, в которых они испытывают сложности. Если вы проводите отборочное тестирование, ожидаемая трудность может быть более высокой (0,3–0,5). Таким образом, задания помогут отличить наиболее способных участников от всех остальных.

Не менее важный аспект, который необходимо учитывать, — это вероятность угадывания правильного ответа. Для задания с четырьмя вариантами ответа, из которых только один правильный, вероятность угадывания составляет 25%. Коэффициент трудности должен быть выше вероятности угадывания, чтобы задание обладало реальной измерительной ценностью. Если коэффициент трудности задания ниже или равен вероятности угадывания, результаты теста могут отражать не реальные знания участников, а случайные догадки.

Обычно задания в рамках теста упорядочены по возрастанию сложности, чтобы испытуемые начинали с более легких заданий и постепенно переходили к более сложным. Такой подход позволяет учащемуся чувствовать большую уверенность и минимизировать риск пропуска заданий из-за недостатка времени.

Дискриминативность

Дискриминативность — это способность вопроса выявить различия между испытуемыми с разным уровнем знаний. Иными словами, при высокой дискриминативности на вопрос верно отвечают испытуемые с высоким уровнем знаний, умений и навыков, а испытуемые с низким — неверно.

Этот показатель находится в диапазоне от −1 до 1 и считается следующим образом:
R = (H − L)/0,27 × Total
R — дискриминативность
H — количество верных ответов на конкретное задание среди 27% наиболее успешно сдавших весь тест.
L — количество верных ответов на конкретное задание среди 27% наименее успешно сдавших весь тест.
Total — общее количество тестируемых

Давайте посмотрим, как можно интерпретировать этот коэффициент дискриминативности.
1. Показатель ⩾ 0,4 говорит о том, что задание отлично различает испытуемых с разным уровнем способностей.
2. Показатель от 0,3 до 0,4 говорит о том, что задание требует небольшой доработки.
3. Показатель от 0,2 до 0,3 говорит о том, что задание необходимо серьезно доработать.
4. Показатель < 0,2 говорит о том, что задание стоит убрать из теста или полностью переделать.

Как мы уже писали выше, если задание в тесте выполняют правильно абсолютно все участники, независимо от их уровня подготовки, оно не позволяет отличить сильных студентов от слабых, а следовательно, не имеет никакой дискриминативной способности. То же самое касается задания, на которое никто не может дать правильный ответ.

Отрицательное значение дискриминативности говорит о том, что сильные участники не могут правильно ответить на задание, а вот слабые, наоборот, отвечают верно. Такие задания не только не разделяют участников по уровню, но еще и искажают результаты оценивания. Такие задания можно смело удалять из теста.

Также для расчета показателя дискриминативности используют и другие способы, основанные на различных типах коэффициентов корреляции. Например, коэффициент корреляции между баллом за каждое отдельное задание и общим баллом по всему тесту. Эти расчеты требуют понимания статистических принципов.

Дистракторы

Задания с множественным выбором включают несколько вариантов ответа, среди которых есть правильная или правильные опции, а также неправильные опции — дистракторы. Дистракторы должны представлять из себя не просто неверные варианты ответа, а быть достаточно убедительными, правдоподобными и одинаково привлекательными для слабых тестируемых.

Чтобы убедиться, что все варианты ответов функционируют должным образом, мы можем провести анализ дистракторов. Для этого необходимо посчитать долю или процент тестируемых, которые выбрали каждый неверный вариант ответа. Так же, как и при расчете трудности задания (p-value), нам необходимо разделить количество тестируемых, которые выбрали эту ответную опцию, на количество тестируемых, решавших это задание. Коэффициент принято называть a-value. В идеале сумма всех a-value должна составлять около 0,5 (конечно, допустимо отклонение в ту или иную сторону), а остальные 0,5 должны приходиться на верную ответную опцию. Между собой значения всех a-value должны быть примерно равны — это говорит о том, что дистракторы одного задания выбраны приблизительно одинаковым количеством тестируемых, равно привлекательны и функционируют корректно (то есть ни один неверный вариант не будет очевидной ловушкой или слишком легким для исключения).

Также важно, чтобы a-value, представляющий долю испытуемых, выбравших определенный неверный вариант ответа (дистрактор), не превышал значение p-value, который отражает общую трудность задания (или процент испытуемых, правильно ответивших на задание). Если a-value превышает p-value, это может свидетельствовать об ошибке в ключах или неправильном формулировании вопроса, что может вводить испытуемых в заблуждение. Такая ситуация может также указывать на то, что правильный ответ недостаточно ясен или логичен для тестируемых, что требует дополнительного анализа и исправления задания.

Важно отметить, что дистракторы, выбранные менее чем 5% испытуемых, как правило, считаются неэффективными и требуют замены.


Примеры заданий и интерпретация их показателей

В этой части мы сосредоточимся на расчетах коэффициентов трудности и дискриминативности, а также на анализе дистракторов и интерпретации данных. Поскольку сбор доказательств валидности — это сложный процесс, включающий количественные и качественные показатели, в этой части мы не будем его затрагивать. Также не будем затрагивать расчет надежности, т. к. он требует понимания статистики. Как мы ранее указывали, вы можете использовать онлайн-калькуляторы.

Давайте рассмотрим два задания из теста по химии для 8-го класса. У этих заданий дихотомический скоринг, то есть за правильный ответ можно получить только 1 балл, за неправильный — 0 баллов. Тест выполняла группа из 30 человек.

Задание 1. Какой из перечисленных ниже процессов является экзотермической реакцией?
A) Горение метана
B) Плавление льда
C) Испарение воды
D) Электролиз воды

Верную опцию А выбрало 17 человек.
Неверную опцию В выбрало 4 человека.
Неверную опцию С выбрало 4 человека.
Неверную опцию D выбрало 5 человек.

Чтобы рассчитать трудность задания, необходимо 17 (количество тестируемых, выбравших правильную опцию) разделить на 30 (количество тестируемых, решавших это задание). Коэффициент трудности = 0,57, это значит, что 57% испытуемых выбрали верный ответ (А) и успешно справились с заданием. Теперь рассчитаем долю тестируемых, выбравших каждый отдельный дистрактор. Для опции В и С это 4 ÷ 30 = 0,13, другими словами, 13% испытуемых выбрали каждый из этих дистракторов. Повторим расчеты для последней опции. Для опции D это 5 ÷ 30 = 0,17, то есть 17% испытуемых.
Чтобы рассчитать дискриминативность для этого задания, необходимо сперва ранжировать студентов от наиболее успевающих к наименее успевающим согласно их итоговому баллу за тест. На рисунке 1 представлена матрица ответов. В первой колонке ID тестируемых, в последующих — ответы на задания (1 — правильный ответ, 0 — неправильный) и итоговый балл за тест. Затем необходимо выделить 27% наиболее сильных и наиболее слабых тестируемых. В нашем случае из 30 человек это 8 самых сильных (выделены зеленым цветом) и 8 самых слабых (выделены синим цветом).
Рисунок 1. Матрица ответов
Теперь мы можем рассчитать коэффициент дискриминативности для задания 1:
1. Рассчитаем количество правильных ответов среди самых сильных тестируемых = 8.
2. Рассчитаем количество правильных ответов среди самых слабых тестируемых = 2.
3. Считаем разность = 8 − 2 = 6.
4. Делим разность на 27% от общего числа тестируемых = 6 ÷ 8 = 0,75.

Как можно заметить, это задание демонстрирует оптимальные показатели p-value, a-value и дискриминативности. Задание не слишком лёгкое, но и не чрезмерно сложное. Значение коэффициента трудности больше вероятности угадывания, что свидетельствует о том, что участники не просто угадывали ответ. Близкие значения a-value говорят о том, что дистракторы одинаково привлекательны для участников, а это хороший показатель качества задания, поскольку дистракторы не должны быть очевидно неправильными. Показатель дискриминативности 0,75 говорит о том, что задание отлично различает испытуемых с разным уровнем способностей. Такое задание можно смело включать в тест!

Задание 2. Какой металл можно купить дороже остальных?
А. Калифорний
B. Платина
С. Золото
D. Серебро

Верную опцию А выбрало 2 человека.
Неверную опцию В выбрало 19 человек.
Неверную опцию С выбрало 8 человек.
Неверную опцию D выбрал 1 человек.

Чтобы рассчитать трудность задания, необходимо 2 (количество тестируемых, выбравших правильную опцию) разделить на 30 (количество тестируемых, решавших это задание). Коэффициент трудности = 0,07. Это значит, что только 7% испытуемых выбрали верный ответ (А) и успешно справились с заданием. Теперь рассчитаем долю тестируемых, выбравших каждый отдельный дистрактор. Для опции В это 19 ÷ 30 = 0,6, другими словами, 60% испытуемых выбрали этот дистрактор. Повторим расчеты для опций C и D. Для опции C это 8 ÷ 30 = 0,3, то есть 30% испытуемых, а для опции D это 1 ÷ 30 = 0,03, то есть только 3% испытуемых выбрали этот дистрактор.
Теперь рассчитаем коэффициент дискриминативности для задания 2:
1. Рассчитаем количество правильных ответов среди самых сильных тестируемых = 2.
2. Рассчитаем количество правильных ответов среди самых слабых тестируемых = 0.
3. Считаем разность = 2 − 0 = 2
4. Делим разность на 27% от общего числа тестируемых = 2 ÷ 8 = 0,25

Крайне низкий процент верных ответов (6%) указывает на то, что задание оказалось слишком сложным для большинства тестируемых, возможно, из-за некорректной формулировки самого вопроса или потому, что этот материал не входит в курс по химии 8-го класса школы. Это говорит о необходимости пересмотра содержания задания в соответствии с учебной программой.
Значения всех a-value сильно отличаются друг от друга, что говорит о разной степени привлекательности дистракторов.

Дистрактор B (60%) оказался заметно более привлекательным, чем все остальные дистракторы и даже чем правильный ответ. Это указывает на проблему в его формулировке — возможно, он отражает распространенное заблуждение. Вариант C получил 30%, что означает, что он также оказался достаточно привлекательным, а вот дистрактор D почти не выбирали. Такой дистрактор не выполняет свою функцию, и его стоит заменить. Низкая дискриминативность (0,25) подтверждает, что задание плохо различает испытуемых с высоким и низким уровнем знаний. Такое задание нуждается в серьезной переработке или замене перед включением в тест.

Вместо заключения

При составлении тестирования важно учитывать рекомендации, которые мы описали в статье «Multiple Choice Questions: когда и как проектировать?». По результатам составления теста необходимо оценить его работоспособность с помощью инструментов психометрики. На небольших выборках можно использовать классическую теорию тестирования (КТТ) для оценки параметров валидности, надежности, трудности и дискриминативности заданий, учитывая ее допущения и ограничения.

На главную альманаха →


Полезные материалы для педагогов, методистов, продакт-менеджеров и лидеров образовательных организаций
Обзоры самых интересных школ и университетов в мире и подборки образовательных возможностей
читать также