суммирующие (итоговые) методы оценивания
Экзамен

  • Экзамен; formal assessment
Систематическое, запланированное, основанное на данных оценивание, которое измеряет успеваемость и способности обучающихся на соответствие определенным стандартам.

Описание принципа работы

Знания и способности обучающихся сравнивают с установленным стандартом. Цель формального оценивания состоит в том, чтобы присвоить балл или оценку, отражающую уровень знаний учащегося по предмету. Поэтому обычно такое оценивание происходит в конце изучения темы или учебного года или при поступлении в учебное заведение более высокого уровня.

Учитель использует один и тот же метод оценки для каждого ученика в группе. Обучающиеся отвечают на одни и те же вопросы в течение одного и того же периода времени, а для анализа их результатов есть четкие критерии. Ученики проинформированы заранее, что их будут оценивать, они знают о формате проведения оценивания, получают прямые инструкции для выполнения и ограниченное время.

Формальное оценивание принимает разные формы:
  • устный или письменный экзамен;
  • тестирование;
  • квалификационный экзамен.

Теоретический бэкграунд

У формального оценивания есть свои сильные и слабые стороны.

Преимущества
  • Формальные оценки надежны и предоставляют конкретные и измеримые результаты обучения.
  • Их можно использовать для определения эффективности образовательных программ и даже образовательных систем.
  • Из-за четко установленных стандартов проведения и анализа результатов влияние экзаменатора на результат минимально [1].
  • Предполагается, что формальное оценивание с высокими ставками стимулирует учащихся быть более внимательными на занятиях и лучше готовиться [2].

Недостатки формального оценивания
  • Формальные оценки предполагают жесткий отсев обучающихся: как правило, нет возможности для повторного прохождения испытания в те же сроки. Некоторые ученики из-за страха перед экзаменами сами уходят из учебных заведений. Это оказывает сильное влияние на учебную траекторию [3] [4].
  • Возможно искажение результатов из-за сильного стресса учеников перед экзаменами с «высокими ставками»: даже отличник может показать результаты ниже ожидаемого [5].
  • Подготовка к экзаменам может провоцировать повышенную тревожность и снижение успеваемости, но многое зависит от посыла, который исходит от преподавателей [6] [7] [8].
  • Выбранная форма формального оценивания может повлиять на то, как учителя преподают и, следовательно, на то, как студенты учатся. Порой происходит «натаскивание» на экзамены, и это порождает стратегии поверхностного изучения, то есть запоминание только того, что необходимо для экзамена, а это значительно сужает обучение [9] [10] [11] [12].

Рекомендации по применению

Формальное оценивание может оказывать значительное влияние на траекторию учащегося, например, определить, поступит ли студент в колледж или университет. В связи с этим важно соблюдать предписанную процедуру проведения и оценки: стандартизация позволяет контролировать факторы, которые могут непреднамеренно повлиять на результаты учащихся — например, то, как даются инструкции, как учителя отвечают на вопросы учащихся и оценивают их ответы. Сами инструменты оценивания (тесты, например) должны соответствовать критериям надежности и достоверности.

Экзамен используется на разных ступенях школы, в колледжах, университетах или других учебных заведениях, в том числе дополнительного профессионального образования. Формальное оценивание появляется везде, где необходимо присвоить балл за освоение программы, перевести учащегося на следующую ступень обучения или выдать документ об окончании обучения.

Данный тип оценивания может принимать различные формы, но каждая из них предназначена для проверки определенных знаний, навыков или способностей.

Формальное оценивание позволяет определить:
  • соответствие норме, то есть успеваемость обучающегося в своей или относительно похожей учебной группе. Допустим, средний балл класса равен 70, а балл учащегося — 35: так мы понимаем прогресс каждого ученика в конкретной учебной группе относительно среднего результата. Это пример ориентации оценивания на норму;
  • соответствие знаний и способностей учащегося критериям без учета успеваемости других, то есть измеряются его индивидуальные способности, вне зависимости от того, какой балл у «среднего ученика»;
  • способности учащегося относительно больших групп (школы, региона, страны) — это помогают сделать стандартизированные тесты, посвященные конкретному предмету;
  • усвоение учеником темы или предмета. Это могут быть тесты, которые разрабатываются учителем для оценки конкретных, поставленных им самим целей обучения для определенного класса;
  • эффективность образовательных программ. Данные, полученные в результате формального оценивания, позволяют отслеживать тенденции по месяцам и годам на уровне класса, школы, системы образования региона и страны, в том числе относительно других. Педагоги и администраторы учебных учреждений используют эти данные для оценки не только учащихся, но и учебных программ, процесса обучения и образовательных систем в целом;
  • области, на которых следует сосредоточиться во время обучения. Иногда формальное оценивание дается до начала обучения, чтобы определить слабые места обучающихся и уделить больше внимания закрытию пробелов.

Примеры реализации

  • ЕГЭ.
  • IELTS.
  • Лабораторная работа (как итоговая по годовому курсу химии, например) в школе.
  • Университетский экзамен в конце семестра в университете.
  • Демонстрационный профессиональный экзамен по стандартам WorldSkills.

Тестирование

  • Тест
  • Тестовое задание

Один из методов исследования и оценивания, предусматривающий выполнение тестовых заданий, с помощью которых определяются различные характеристики личности и/или оценивается уровень владения каким-либо материалом [13].

Описание принципа работы

Тестирование является одной из самых востребованных и широко распространенных форм контроля в образовании [14]. Среди причин такой популярности тестов в первую очередь то, что стандартная форма заданий обеспечивает оперативность и легкость подсчета результатов.

Также характеристиками качественно составленных материалов тестирования считаются валидность, надежность и экономность. Валидность означает соответствие материала целям тестирования. Надежность и объективность связаны с прозрачностью формата: первый показатель отвечает за достоверность результата, а второй исключает возможность предвзятой оценки. Использование тестирования в образовании подразумевает обращение к единому набору методических инструментов, на основе которого сравниваются результаты учащихся. Уровень знаний здесь измеряется количественно, что позволяет говорить о равноправии всех испытуемых. Оценка в таких случаях более объективна, чем оценка за контрольную работу, эссе или сочинение, на итог проверки которых может влиять личное восприятие проверяющего.

Теоретический бэкграунд

Термин «тестирование» в литературе понимается: а) как использование и проведение тестов; б) как совокупность процедурных этапов планирования, составления и опробования тестов, обработки и интерпретации их результатов.

Тесты можно разделить на две группы: интеллектуально-психологические и учебные.

В первом случае тест понимается как «стандартизированная психологическая методика, направленная на диагностику качеств, состояний и функциональных характеристик личности и их количественную оценку» [15]. Здесь среди прочих выделяют следующие направления:
  • тестирование интеллекта, позволяющее определить уровень IQ;
  • личностное тестирование, указывающее на характеристики личности, ее ценности, модели поведения и так далее;
  • тестирование креативности, раскрывающее творческий потенциал личности [16].
Любой из названных типов тестирования может использоваться, например, работодателем с целью удостовериться, что конкретный кандидат подходит для определенной работы.

Учебные тесты, или — в некоторых источниках — «тесты достижений» [16], направлены на проверку знаний, навыков и умений в рамках какого-либо учебного предмета. Основные функции учебного тестирования:
  • диагностическая (определяется уровень знаний учащихся и качество усвоения материала);
  • контрольно-оценочная (подводятся промежуточные или финальные итоги обучения);
  • обучающая (тесты могут использоваться для самоподготовки и самооценивания);
  • развивающая (навык отработки знаний на практике, развитие памяти);
  • мотивационно-побудительная (понимание объективности оценивания и желание получить высокий результат);
  • воспитательная (развитие навыков самоконтроля, усидчивости и усиления интереса к процессу обучения);
  • стандартизирующая (одинаковые требования ко всем учащимся группы, класса, школы, района, страны);
  • и некоторые другие [17].

Рекомендации по применению

  • Задания строятся на фундаментальных положениях учебной дисциплины, которые учащемуся необходимо знать в результате её изучения. Включать в тестирование абсолютно все аспекты пройденного материала может быть нерационально [18].
  • Качественный тест соотносится с изученным материалом, но не повторяет текст учебника дословно.
  • Чаще всего предлагаются тестовые задания, построенные на множественном выборе, то есть поиске одного ответа среди нескольких вариантов.
  • Неправильные ответы должны быть правдоподобными: например, если это языковой тест, нельзя давать в качестве одного из вариантов несуществующее слово.
  • Содержание теста должно соответствовать современному уровню развития науки.
  • По мнению авторов «Нового словаря методических терминов и понятий», тестирование не заменяет традиционных методов контроля, а дополняет их [13].
  • Тестирование может проводиться как в цифровом формате, так и в бумажном. В обоих случаях современные технологии позволяют проверить работы автоматически, с помощью специальных программ [17].

Тестирование широко используется в самых разных сферах — от школьного и вузовского образования до психологического консультирования и профориентации. Вследствие чего целевая аудитория крайне разнородна: дошкольники, школьники, студенты, взрослые и пожилые люди разных специальностей, типов личности и пр.

В качестве примера остановимся на использовании тестирования в лингводидактике, то есть в сфере обучения языкам. Здесь к нему активно обращаются в двух ситуациях:
  1. чтобы разделить учащихся на группы в зависимости от уровня знаний и количества набранных баллов (нормативно-ориентированные тесты);
  2. чтобы определить прогресс учащегося, увидеть, достиг ли он определенного уровня владения языком (критериально-ориентированные тесты). Тесты даются как детям, так и взрослым; задания для малышей-билингвов будут отличаться от вопросов для бизнесменов, осваивающих пласт делового языка, или для иностранцев, претендующих на получение гражданства [19]. В последние годы все более востребованными становятся коммуникативные тесты, с помощью которых проверяется не только знание языковой системы, но также сформированность коммуникативной компетенции [13].

В парадигме таксономии Блума с помощью основной массы тестов преподаватель проверяет освоение учащимся ступеней «Знаю», «Понимаю», «Применяю». В ряде тестовых заданий охватываются также уровни анализа и синтеза; в качестве примера можно привести блок «Чтение» в ТРКИ и A-level, где студенту предлагаются варианты ответов, но выбрать их, не видя контекст и подтекст, не получится. Самый верхний уровень — оценка — также может встречаться в некоторых типах тестов; так, в ходе Beck Depression Inventory человек оценивает собственное состояние [20].

Примеры форм тестовых заданий

  1. Закрытые задания. Они состоят из основного текста (инструкции), служащего стимулом для ответа, и нескольких вариантов ответов, только один из которых является правильным.
  2. Открытые задания. В них не используются готовые варианты ответов, учащийся должен вставить недостающее слово или фразу.
  3. Задания на установление соответствия. В таких заданиях испытуемому дается два списка и предлагается установить соответствие между их элементами.
  4. Задания на установление правильной последовательности.

Стандартные части тестового задания: инструкция, текст задания, список вариантов. Ответы могут оформляться по-разному; одним из часто встречающихся способов является внесение выбранных вариантов в матрицу.

Референсы

1. ТРКИ — это международный сертификационный экзамен по русскому языку как иностранному. Он является обязательным для тех студентов, которые планируют поступать в российский вуз и/или получать гражданство. Также без сертификата об успешной сдаче ТРКИ иностранец не сможет получить диплом российского вуза.
Экзаменационные материалы, предназначенные для разных целей, отличаются друг от друга: тестирование на общее владение не идентично тестированию на гражданство и материалам по русскому языку для делового общения. Если говорить о самом востребованном экзамене на общее владение, важно отметить, что его система деления на уровни соотносится с общепринятой мировой [19]:

  • A1 = Level 1 Breakthrough Level (Novice);
  • A2 = Level 2 Waystage Level (Intermediate);
  • ТРКИ-1 (B1) = Level 3 Threshold Level (Upper-Intermediate);
  • ТРКИ-2 (B2) = Level 4 Vantage Level (Advanced);
  • ТРКИ-3 (C1) = Level 5 Effective Operational Proficiency (Advanced Plus);
  • ТРКИ-4 (C2) = Level 6 Good User (Superior Native).

Вне зависимости от уровня каждое сертификационное тестирование состоит из пяти частей: лексика и грамматика, чтение, аудирование, письмо и говорение. Первые три блока строятся в формате теста, где из списка вариантов необходимо выбрать один правильный ответ. В частях «Письмо» и «Говорение» варианты ответа отсутствуют.

Проходной балл для каждого блока составляет 66%. Если результат одного субтеста ниже указанного значения, студент имеет возможность эту часть пересдать.

2. Единый государственный экзамен (ЕГЭ) представляет собой форму государственной итоговой аттестации, призванной подтвердить успешное прохождение программы среднего образования. Обязательными считаются экзамены по русскому языку и математике, остальные дети могут выбирать по своему усмотрению, исходя из дальнейших планов относительно направления высшего образования и будущей специальности [21].

Задания ЕГЭ стандартизированы. Это значит, во-первых, то, что школьники по всей стране находятся в равных условиях и работают с одинаковыми заданиями, а во-вторых, то, что каждое задание затрагивает определенную заранее известную тему школьной программы. Например, в экзамене по русскому языку в заданиях 16−21 обычно проверяется знание правил пунктуации, а в заданиях 10−11 по математике — понимание функций.
Часть заданий ЕГЭ — это тест с выбором ответа, но также в этом формате существуют задания с кратким и развернутым самостоятельным ответом.

3. Шкала депрессии Бека (Beck Depression Inventory) — тест, созданный американским психиатром, профессором Пенсильванского университета Аароном Беком для определения наличия депрессии и диагностики ее уровня. Он состоит из 21 вопроса с несколькими вариантами ответа, из которых каждый раз надо выбрать один [20].

Поскольку А. Бек считается одним из основоположников когнитивного направления в психотерапии, его метод значительно отличается от принятой в начале XX века психоаналитической модели [22]. Бек в течение многих лет изучал тревогу и депрессию, и его открытия стали важнейшим шагом в сторону лучшего понимания и эффективного лечения данных заболеваний. Тест Бека, предназначенный для людей старше 13 лет, помогает определить у пациента наличие таких симптомов депрессии, как ощущение безнадежности, отсутствие интереса к жизни, хроническая усталость и др. Немаловажно и то, что этот тест может пройти самостоятельно любой желающий — и затем при необходимости обратиться к врачу, уже лучше понимая свое состояние.

Критериальное оценивание

  • Criterion-referenced assessment
  • Criteria-based assessment
Критериальное оценивание — это метод оценивания по набору заранее определенных качеств или критериев, которые не связаны с достижениями других учащихся (Brown, 1998; Harvey, 2004) [23].

Другими словами, это процесс, основанный на сравнении учебных достижений учащихся с четко определенными, заранее известными всем участникам процесса критериями, соответствующими целям и содержанию образования, способствующими формированию ключевых компетенций учащихся [24].

Принцип применения

Для детализации того, как работает и проектируется критериальное оценивание, необходимо ввести некоторые важные термины.

Рубрика — перечень критериев оценивания знаний и умений учащихся по изученной теме. Она определяется целями изучения какой-либо темы и содержательно наполняется критериями, раскрывающими данную рубрику. Каждая рубрика содержит набор оценочных критериев, дескрипторов и соответствующих им баллов.

Критерии определяются задачами обучения и представляют собой перечень различных видов деятельности учащегося, которую он осуществляет в ходе работы и должен в совершенстве освоить в результате работы. Критерии описываются с помощью дескрипторов.

Дескрипторы описывают уровни достижения учащегося по каждому критерию и оцениваются определенным количеством баллов: чем выше достижение, тем больше балл по данному критерию [25].

При этом критерии могут использоваться как в формирующем, так и в суммирующем оценивании [26].
Содержание же самих критериев определяется тем, насколько хорошо он соответствует образовательным результатам. То есть наполнение критериев выбирается на основе значимости данного фактора в учебной программе, в то время как содержание для нормативного оценивания, например, выбирается на основе того, насколько хорошо оно различает учащихся [27].

Критерии должны быть тщательно отобраны с целью измерения уровня достижений для каждой возрастной группы. Каждый уровень достижений, который отмечается определенным баллом, содержит описание-дескриптор, что, с одной стороны, позволяет легко превратить цифру-отметку в словесное описание достигнутого уровня, а с другой — облегчает процесс выставления отметки и снижает роль эмоционального фактора в этом процессе [24].

Если в нормативном оценивании результат показывает, насколько хорошо учащийся справился с предложенным заданием по отношению к остальным членам группы, то критериальное оценивание позволяет оценить глубину освоения, на основании чего в последующем представляется возможным формирование индивидуальной траектории развития учащегося [25].

Оценка, основанная на критериях, позволяет:
  • предоставлять учащимся возможности демонстрировать свою компетентность;
  • более точно определять объем содержания для усвоения учащимися;
  • учитывать процессуальный, концептуальный и поведенческий аспекты обучения;
  • оценивать обучение как целостный процесс, как совокупность содержания или взаимосвязанных компетенций;
  • реализовать индивидуальную или групповую оценку;
  • ориентировать процесс обучения на непрерывную форму оценивания.
Процедура осуществления критериального оценивания трудоемка, так как она требует тщательного продумывания учебных ситуаций, самоанализа и самооценки учебных достижений, использования многобалльной шкалы оценивания [24].

Теоретический бэкграунд

Сама концепция критериального оценивания была изобретена в 1962 году Глезером и Клаусом. Предложенный подход к оцениванию был воспринят позитивно, особенно специалистами-практиками в области образования, поскольку было установлено, что он особенно эффективен для формирующего оценивания. Одним из названных преимуществ данного метода оценивания является то, что он дает преподавателю более полную информацию об успеваемости отдельных учащихся и групп учащихся и, следовательно, полезен для индивидуализации обучения. После длительного периода исследований большинство исследователей пришли к выводу о том, что измерение, основанное на критериях, подходит для практически любых предметных областей, а также позволяет в равной степени оценивать образовательные результаты любого уровня когниции согласно таксономии Блума. В сфере образования инструменты, основанные на критериях, широко используются в качестве формирующего оценивания, но инструменты, основанные на нормах, по-прежнему доминируют при экзаменах и отборах [28].

Рекомендации по применению

Шкала для оценивания может быть любая, но в соответствие каждому баллу должен быть приведен некий наблюдаемый и/или измеримый результат, демонстрируемый обучающимся.

Пример шкалы с интерпретацией [29]:
  • 2 балла — зачтено;
  • 1 балл — доработать;
  • 0 баллов — не зачтено.

Разработка критериальной матрицы (рубрик) оценивания открывает широкие возможности для использования кругов рефлексии, особенно актуальных для дистанционного обучения [30]:
  • критерии, выданные студенту перед выполнением работы, становятся своеобразным гидом по выполнению задания, являются ориентиром для ее выполнения, позволяют проводить рефлексию во время выполнения работы;
  • обучающийся имеет возможность самооценки выполненной работы по критериальной матрице — рефлексия после завершения работы;
  • критериальная матрица — инструмент, необходимый для использования в оценке peer-to-peer и рецензировании, рефлексия здесь происходит во время проверки работ сокурсников при погружении в тот же сюжет в процессе оценивания;
  • наконец, комментарии от преподавателя, уточняющие соответствие выполненного задания заданным критериям, дают возможность для более глубокого понимания и обучения, пострефлексии.

Для применения критериального оценивания требуется наличие:
  • понятных инструкций к каждому заданию;
  • сроков выполнения задания;
  • критериев выполнения задания;
  • лучших образцов выполнения задания.

Для разработки рубрик и шкалирования рекомендуется следующий алгоритм действий:
  1. Определение образовательных результатов курса и занятия.
  2. Определение оценочных средств для подтверждения образовательных результатов.
  3. Формирование стандартов учебных достижений (критериев эталонных ответов) — идеально выполненного задания и требований, которым оно должно соответствовать. Эти требования необходимо сформулировать в виде критериев или рубрик для оценивания. Они расположатся в таблице по вертикали.
  4. Дифференциация достижений по рубрикам и по силе их проявления — рейтинговая шкала, отражающая уровни соответствия выполненного задания заявленной системе критериев, шага шкалы в виде начисляемых баллов. Шкала будет расположена в таблице по горизонтали.
  5. Определение каждой позиции шкалы в виде понятного дескриптора (описания), позволяющего точно дифференцировать переходы между уровнями оценки. Описание характеристик ответа или работы обучающегося, соответствующего каждому уровню.

Практические рекомендации

  • Количество критериев — оптимально 4−6.
  • Длина рейтинговой шкалы — оптимально 3−4.
  • Допустимы шкалы с пропусками.
  • Допустимы двухступенчатые матрицы оценивания — да или нет.

Типовые ошибки
  • Размытость формулировок (употребление слов широкой семантики, степеней сравнения — «Тема раскрыта не полностью», «Недостаточно всесторонний», «Поверхностно», «Неактуально», «Актуально» и прочее).
  • Отсутствие опоры на конкретные данные, объективные требования, измеримые параметры.
  • Использование в одном критерии двух требований, например «Объем и состав презентации».

Недостатки метода
  • Для разработки требуется большой промежуток времени.
  • Использованию рубрик необходимо обучаться, и в основном обучение происходит на практике.
  • Использование рубрик не заменяет обратной связи.
  • Так же, как и субъективная оценка, основанная на мнении, рубрика также может быть необоснованной, ненадежной и нечестной (методы повышения надежности: коллективное обсуждение критериев и использование эталонного задания, соответствующего высшей оценке).

Традиционно применяется в школьном образовании, где чаще прочего используется для оценивания проектной деятельности. Однако сегодня метод критериального оценивания распространен за пределами традиционной сферы образования, например, им пользуются в программах лицензирования и различных типах сертификационных программ. Часто применяется в проектном обучении.

Примеры

  1. UU School of Education, программа профессиональной переподготовки «Проектирование образовательного опыта»; используется в качестве метода оценивания проектных работ студентов.
  2. International Bachelor, Middle Year Program применяется для оценивания успеваемости учащихся.
  3. Высшая школа экономики, Институт образования; используется при проектировании образовательных программ бакалавриата и магистратуры преподавателями как обязательный элемент, затем в качестве метода оценивания различных заданий студентов.

Сравнительная оценка

  • Comparative judgment

Сравнительная оценка — это метод оценивания, при котором работы учеников располагаются попарно и оцениваются параллельно и холистически (целостно). Нескольким оценщикам предлагается выбрать, какая из двух работ в каждой паре лучше. Каждую работу оценивают несколько раз в разных парах. В результате множества таких сравнений получается шкала работ: от самой слабой к самой сильной. Поскольку каждая работа проверяется несколько раз в разных парах, полученный рейтинг считается объективным.

Важные составляющие
1. Целостный подход к оценке. При СО не используются критерии — работа оценивается целиком.
2. Относительность («лучше» или «хуже»), а не абсолютность оценки.
3. Парность в презентации работ: работы располагаются рядом друг с другом.
4. Множественность оценщиков.
5. Инструмент для построения итоговой шкалы.

Теоретический бэкграунд

Сравнительная оценка основана на «Законе сравнительных суждений», выведенном в 1920-х годах американским психологом и пионером психометрии Луисом Терстоуном. Именно Терстоун ввел стандарт измерительных шкал по принципу парного сравнения высказываний — теперь они известны как шкалы равнокажущихся интервалов Терстоуна. Исследования Терстоуна показали, что людям трудно давать абсолютные оценки при попытке присвоить чему-то ценность, но при этом они очень точны в сравнительных суждениях. Например, нам трудно определить, сколько весит отдельный пакет продуктов, но если попросить сравнить один пакет с другим, то мы без проблем скажем, какой из них тяжелее. Терстоун предположил, что тот же принцип можно применить для работ, которые трудно оценить целостно и которые обычно оцениваются критериально: например, для эссе или рисунка.

Однако первое исследование об использовании СО в образовании было опубликовано лишь в 1993 году [31]. В нём СО использовалась для оценки владения разговорной речью. Авторы эксперимента нарезали видеозаписи тестовых выступлений пяти студентов и объединили их в пары двухминутных фрагментов, каждую из которых оценивала команда из шести судей. В результате оценивания исследователи получили шкалу выступлений.

Исследователи метода подчеркивают, что, чтобы СО была валидной, нужно точно сформулировать холистический вопрос, по которому будут оцениваться работы, а также пригласить нескольких оценщиков. Таким вопросом может быть, например, следующий: «Кто из авторов эссе выражает свои идеи наиболее подходящим образом?». При этом сравнивать можно как отдельные элементы, так и более длинные письменные ответы и даже выступления. Такие технологии, как веб-сайт No More Marking, созданный доктором Кристофером Уидоном, позволили широко использовать сравнительные суждения. На сайт загружаются отсканированные работы, анализируются суждения и составляется шкала. В отличие от модели, предложенной Терстоуном, No More Marking использует адаптивную сравнительную оценку, где знание об уже существующих оценках используется для разработки дальнейших сравнений, необходимых для получения надежной шкалы.

Преимущества СО

  • Высокая надежность результатов оценивания: СО может дать более надежные результаты по сравнению с традиционными методами оценки. Путем прямого сравнения работ СО фокусируется на их относительном качестве, а не на абсолютных оценках, что приводит к более последовательной и точной оценке.
  • Высокая объективность: СО помогает смягчить предубеждения, присущие любому оценщику. Оно смещает акцент с попыток выставить абсолютные баллы или оценки на относительные сравнения, что сводит к минимуму влияние личных предубеждений и позволяет проводить более объективную оценку.
  • Высокая эффективность: этот метод может быть более эффективным по времени по сравнению с традиционной оценкой. Вместо того чтобы выставлять баллы или оценки каждой отдельной работе, оценщик сравнивает лишь пару работ. Этот оптимизированный процесс может сэкономить время и усилия, при этом обеспечивая надежные результаты.

Недостатки СО

  • Ресурсозатратность. Необходимым условием для СО является работа сразу несколько оценщиков. Это большая единовременная загрузка множества людей (например, при СО необходимо в 5 раз больше времени, чем при выставлении традиционных оценок).
  • Необходим специальный инструментарий или сервис для подсчета результатов.
  • Низкая способность к масштабированию. Например, трудно организовать оценку методом СО 100 000 выпускных эссе по всей стране.
  • Непрозрачность. Студенту непонятно, на основании чего ему вынесли ту или иную оценку. Если студент не согласен с итоговой оценкой и подает на апелляцию, перед ним нужно будет разворачивать в полной мере весь сложный процесс СО.

Рекомендации по применению

Лучше всего сравнительная оценка подходит для оценивания заданий, которые не подразумевают бинарный («правильно — неправильно») ответ, то есть для открытых заданий, таких как эссе, сочинения, арт- и дизайн-работы, портфолио, выступления, открытые научные и математические исследования и т. п. Подходит для P2P-оценивания, когда вся группа студентов может оценить работы друг друга.

Источники

[1] Orfield, G., Kornhaber, M. L. (Eds.). Raising standards or raising barriers? Inequality and high-stakes testing in public education. // New York: The Century Foundation Press (2001).
[2] Pan, Y. A review of washback and its pedagogical implications. // MTG Journal of Science, Foreign Languages, 25 (2009), pp. 257−263.
[3] Jacob, B. A. Getting tough? The impact of high school graduation exams. // Education Evaluation and Policy Analysis, 23 (2) (2001), pp. 99−121.
[4] Murnane, R. J., Willett, J. B., Tyler, J. H. Who benefits from obtaining a GED? Evidence from High School and Beyond. // Review of Economics and Statistics, 82 (1) (2000), pp. 23−37.
[5] Vogel, S., & Schwabe, L. Learning and memory under stress: implications for the classroom. // NPJ Sci Learn. 1: 16 011 (2016).
[6] Jones, B. The unintended outcomes of high-stakes testing. // Journal of Applied School Psychology, 23 (2) (2008), pp. 65−86.
[7] Von der Embse, N, Schultz, B. K., Draughn, J. D. Readying student to test: The influence of fear and efficacy appeals on anxiety and test performance. // School Psychology International 36 (6) (2015), pp. 620−637.
[8] Putwain, D. Do examinations stakes moderate the test anxiety-examination performance relationship? // Educational Psychology, 28 (2) (2008), pp. 109−118.
[9] Prieto-Barrio, M. I., Cobo-Escamilla, A., González-García, M. N., Moreno-Fernández, E., de la Rosa-García, P. Influence of Assessment in the Teaching-learning Process in the Higher Education. // Procedia — Social and Behavioral Sciences, 176 (2015), pp. 458−465.
[10] Boud, D. Assessment and Learning: Contradictory or Complementary? // London: Routledge Falmer. Assessment for Learning in Higher Education (1998), pp. 35−48.
[11] Scouller, K. The influence of assessment method on students' learning approaches: Multiple choice question examination versus assignment essay. // Higher Education, 35 (1998), pp. 453−472.
[12] Haggis, T. Constructing images of ourselves? A critical investigation into ‘Approaches to learning' research in higher education. // British Educational Research Journal, 29 (1) (2003), pp. 89−104.
[13] Азимов, Э. Г., Щукин, А. Н. Новый словарь методических терминов и понятий (теория и практика обучения языкам). // М., Издательство ИКАР (2009).
[14] Горбунова, Н. В. Тестирование как метод педагогического контроля и эмпирической реализации психолого-педагогических исследований. // Проблемы современного педагогического образования. № 67−2 (2020). URL: https://cyberleninka.ru/article/n/testirovanie-kak-metod-pedagogicheskogo-kontrolya-i-empiricheskiy-metod-realizatsii-psihologo-pedagogicheskih-issledovaniy (дата обращения: 24.05.2023).
[15] Шадриков, В. Д. Психодиагностика и психопрогностика. // Ярославль. Профессиональная ориентация и обучение (1988).
[16] Челышкова, М. Б. Теория и практика конструирования педагогических тестов: Учебное пособие. // М., Логос (2002).
[17] Ефремова, Н. Ф. Тестовый контроль в образовании: Учеб. пособие. // М.: Университетская книга, Логос (2005).
[18] Чурина, К. В., Зимина, Е. К. Тестирование как форма контроля результатов обучения. // Молодой ученый, № 9 (89) (2015), с. 1214−1217, URL: moluch.ru/archive/89/18 283/ (дата обращения: 15.05.2023).
[19] Тестирование по русскому языку как иностранному (ТРКИ, уровни А1-С2). // Головной центр тестирования иностранных граждан МГУ им. М. В. Ломоносова. URL: https://gct.msu.ru/testirovanie-TRKI/ (дата обращения: 24.09.2023).
[20] Beck Depression Inventory (BDI). // Addiction Research Center. University of Wisconsin-Madison. URL: https://arc.psych.wisc.edu/self-report/beck-depression-inventory-bdi/ (accessed: 24.09.2023).
[21] ЕГЭ. // Федеральная служба по надзору в сфере образования и науки. ФГБНУ "Федеральный институт педагогических измерений". URL: https://fipi.ru/ege (дата обращения: 24.09.2023).
[22] About Dr. Aaron T. Beck. // Beck Institute. URL: https://beckinstitute.org/about/dr-aaron-t-beck/#developmentof (accessed: 24.09.2023).
[23] Brown, S. Criterion-referenced assessment: What role for research. // H. Black & W. Dockerell (Eds.), New developments in educational assessment. British Journal of Educational Psychology, Monograph Series №. 3 (1998), pp. 1−14.
[24] Вертьянова, А. А. Особенности применения технологии критериального оценивания в современном учебном процессе. // Вестник ПГГПУ. Серия № 1. Педагогические и психологические науки. URL: cyberleninka.ru/article/n/osobennosti-primeneniya-tehnologii-kriterialnogo-otsenivaniya-v-sovremennom-uchebnom-protsesse/viewer (дата обращения: 24.09.2023).
[25] Ступницкая, М. А. Критериальное оценивание. // Журнал "Педагогические измерения", № 1 (2015), с. 52−75.
[26] Harlen, W., James, M. Assessment and learning: differences and relationships between formative and summative assessment. // Assessment in education: Principles, policy & practice 4.3 (1997), рр. 365−379.
[27] Bond, Linda A. Norm- and Criterion-Referenced Testing. // Practical Assessment, Research, and Evaluation: Vol. 5 (2019), Article 2.
[28] Wikström, C. Criterion-Referenced Measurement for Educational Evaluation and Selection. // Department of Educational Measurement Umeå University № 1 (2005).
[29] Пинская М. А. Формирующее оценивание: оценивание в классе: учеб.пособие. // Москва, Логос (2010), с. 264.
[30] Другова, Е. А., Велединская, С. Б., Журавлева, И. И., Дорофеева, М. Ю. ЛИспользование инструментов педагогического дизайна для обеспечения качества смешанного обучения: методические указания. // Том. гос. ун-т. — Томск. Издательство Томского государственного университета, 2021. URL: https://vital.lib.tsu.ru/vital/access/manager/Repository/koha:847 914 (дата обращения: 29.09.2023).
[31] Pollitt, A., Murray, N. L. What raters really pay attention to language testing research colloquium. // Cambridge (1993). Reprinted from Milanovic, M., Saville, N. (Eds.), 1996, Studies in language testing 3: Performance testing, cognition and assessment. Cambridge: Cambridge University Press.




На главную альманаха →

читать также
полезные материалы от School of Education
также вас может заинтересовать
Вдохновляющие дискуссии и лекции наших преподавателей, а также книга, охватывающая все аспекты проектирования программ, соавтором и составителем которой стала Соня Смыслова, сооснователь и куратор School of Education
подпишитесь на рассылку альманаха
Чтобы первыми получать свежие материалы прямо на почту