Ключевые моменты
- Необходимо всегда оценивать качество экзаменов высокой важности, таких как объективный структурированный клинический экзамен (ОСКЭ), используя набор подходящих показателей.
- При оценке качества ОСКЭ очень важно использовать несколько показателей -это позволяет получить всестороннее представление о качестве оценки.
- Специалистам по оценке необходим набор инструментов, чтобы выявлять стандартные ошибки при оценке и избегать их в дальнейшем.
- Для значительного повышения качества оценки нужно сначала измерить его на уровне отдельных станций и внести необходимые улучшения, соотнося эти действия с общим контекстом всего процесса оценки в ходе ОСКЭ.
- Постоянное использование показателей оценки для повышения качества ОСКЭ позволяет четко оценить влияние вносимых изменений.
- Все более частое использование методов оценки, основанных на применении специализированных критериев, в программах до- и последипломного образования ведет к необходимости обеспечить качество и надежность таких оценок.
В обстановке все более пристального внимания к методам, которые используют при принятии решений высокого уровня в академических дисциплинах, критериальная оценка (КО) обеспечивает надежный структурированный методологический подход. В качестве методологии, основанной на компетенциях, КО позволяет выполнить итоговую оценку ответственных экзаменов (например, квалификационных экзаменов или экзаменов на получение ученой степени), обладает высокой надежностью и достоверностью. Это привлекательная методология оценки, имеющая ряд весомых преимуществ по сравнению с более традиционными, неструктурированными формами оценки (например, устные экзамены): она носит абсолютный характер, тщательно стандартизована для всех кандидатов, а порядок оценки четко спланирован и тесно увязан с целями профессиональной подготовки. Эти цели можно сравнить с итогами обучения там, где они есть, со стандартами, которые разработаны регулирующими и лицензирующими органами как для студентов, так и для преподавателей. По этой причине методология КО широко применяется не только при итоговой оценке, но и в рамках целого ряда методов оценки на рабочем месте в самых разных академических дисциплинах (Norcini, 2007; Postgraduate Medical Education and Training Board, 2009). В настоящее время КО в Великобритании применяется также при наборе на работу врачей-ординаторов; при этом используют структурированное интервью, сходное с тем, что применяют при поступлении на программы высшего образования (Eva et al., 2004).
ОСКЭ использует принципы КО в рамках сложного процесса, который начинается с планирования содержания курса в соответствии с заранее определенными целями (Newble, 2004). Цель в данном случае - гарантировать, во-первых, что оценивается верный стандарт, а во-вторых, что содержание ОСКЭ объективно совпадает с итогами обучения в соответствии с учебным планом. Подготовка экзаменуемого оценивается на уровне отдельных станций с помощью чек-листа, в который заносятся действия (или последовательность действий) экзаменуемого, а также в виде глобальной оценки, опирающейся на менее детерминированную общую оценку экзаменаторов (Cohen, 1997; Regehr, 1998).
Ключевое значение для успешной КО имеют обеспечение достаточного качества оценки и разработка жестких стандартов на основе ряда показателей, которые обеспечивают оценку в целом, а не просто сосредоточены на результатах, продемонстрированных кандидатами (Roberts, 2006). Рассматривать оценку крайне важно, так как проведение ОСКЭ - сложное и ресурсоемкое мероприятие, в котором обычно задействовано много экзаменаторов, кандидатов, тренажеров и пациентов и которое часто происходит параллельно в нескольких центрах. Такая сложность означает, что возможны трудности со стандартизацией КО и она очень сильно зависит от поведения экзаменатора, даже при таком механизме контроля, как чек-лист. Невозможно значимо оценить качество проведения экзамена по какому-то одному показателю, так же как невозможно оценить, к примеру, клиническую компетентность студента по результатам одного экзамена. Именно поэтому при проведении КО критическую роль играют понимание сути показателей и умение эффективно их использовать как при оценке качества, так и при распределении ресурсов для соответствующих дальнейших исследований и разработок экзаменов (Wass, 2001).
Концепция качества при проведении объективного структурированного клинического экзамена - общие принципы
В данном руководстве рассматриваются применяемые в последние годы показатели с использованием результатов ОСКЭ у выпускников в качестве примеров того, насколько точно с помощью этих показателей можно измерить качество оценки. Важно осознавать, что обзор показателей, используемых при ОСКЭ, - это лишь часть общего процесса оценки качества ОСКЭ, что требует учета всех взаимосвязей в ходе процесса оценки в целом (рис. 1).
При использовании ОСКЭ как составной части национального экзамена станции разрабатываются централизованно, исходя из общего стандарта, и, как правило, централизованно представляются центрам, проводящим экзамены. Однако на местном уровне, при экзаменах, разработанных в конкретных медицинских институтах, возможны некоторые вариации, например в максимальных показателях для каждой станции, и это зависит от важности и сложности данной станции для тех, кто готовит экзамен. Эти абсолютные различия между оценочными станциями отрицательно скажутся на надежности показателя, делая часто упоминаемое значение 0,9 недостижимым. Стандартизировать данные ОСКЭ и таким образом добиться большей надежности показателя можно, но это не будет подлинным отражением оценки с учетом целей тех, кто ее проводит. Данное руководство в первую очередь нацелено на тех, кто участвует в клинической оценке на местном уровне в отдельных медицинских институтах, где оценка может проходить сразу в нескольких местах, но под единым руководством. У тех, кто участвует в клинической оценке на национальном уровне, может быть иная точка зрения.
Какой метод разработки стандартов использовать
Метод разработки стандартов определяет, какие показатели можно использовать для оценки качества. Стандарты могут быть относительными (например, нормативно-ориентированными) или абсолютными, основанными либо на предмете оценки (методы EbeL и Angoff), либо на уровне подготовки кандидата (пороговые методы). Поскольку к стандартам предъявляют такие требования, как оправданность, научная обоснованность и приемлемость (Norcini, 2003), в большинстве случаев используют абсолютные стандарты. При этом все методы разработки стандартов включают ряд ретроспективных показателей: например, доля успешно сдавших экзамен на данной станции, фиксированные эффекты (время оценки, сравнение между центрами проведения экзамена) или распределение оценок по частоте, но важно выбрать метод разработки стандарта, который позволяет получить дополнительные показатели качества. В настоящее время во многих организациях предпочитают пороговые методы, но только метод регрессии позволяет получить данные о связи между глобальной оценкой и результатами чек-листа, а также по уровню различий между слабыми и сильными студентами. В табл. 1 перечислены основные различия между несколькими пограничными методами оценки и описан их вклад в показатели качества.
Авторы предпочитают метод пороговой регрессии, так как при этом используются все взаимодействия между экзаменаторами и кандидатами, и эти взаимодействия реальны. Метод объективно основан на заранее выбранных критериях, с использованием большого числа экзаменаторов и дает широкий диапазон показателей.
Один из критических аргументов против метода пороговой регрессии - его возможная чувствительность к выпадающим показателям. Такие выпадающие показатели можно разбить на 3 основные группы:
■ студенты с очень низкими результатами, у которых сумма баллов в чек-листе близка к нулю;
■ студенты с достаточно высокими результатами по чек-листу, которые, однако, произвели на экзаменатора неблагоприятное впечатление;
■ экзаменатор, выставляющий неверную глобальную оценку.
Эти вопросы будут подробнее обсуждаться в соответствующих разделах данного руководства.
Как получать показатели качества на уровне станций
В табл. 2 приведен стандартный набор показателей для типичного ОСКЭ (20 станций за 2 дня, общее время тестирования - около 3 ч, 4 центра проведения экзамена). При этом обычно задействованы около 250 кандидатов, 500 экзаменаторов и 150 стандартизованных пациентов (СП), пациенты-волонтеры со стабильными клиническими признаками (используются для физикального обследования). Кандидаты должны выполнить требования сдачи экзамена, которые включают общий проходной балл, минимальное число станций (предотвращает избыточную компенсацию оценки за счет других станций и добавляет соответствие требованию "компетентный, всесторонне подготовленный врач") и минимальное число приемлемых оценок со стороны пациентов. Экзаменаторы заполняют чек-лист, а затем выставляют глобальную оценку (глобальные оценки в наших ОСКЭ записываются в численном виде следующим образом: 0 - однозначно не сдано; 1 - пороговый результат; 2 -сдано; 3 - очень хорошо сдано; 4 - сдано на отлично).
Для разработки стандартов использовали метод пороговой регрессии (Pell, Roberts, 2006). Как правило, такой ОСКЭ дает приблизительно 60 000 элементов данных (т.е. отметок в отдельных чек-листах), что в совокупности представляет ценный источник для измерения качества оценки и ее последующего повышения. В результате использования таких данных мы видели, как наши ОСКЭ все более модернизируются, при этом сохраняя или повышая уровень надежности.
При всех пороговых методах разработки стандартов с выставлением глобальной оценки в дополнение к оценкам в баллах из чек-листов сопутствующие показатели позволяют измерить качество оценки. Для других типов разработки стандартов, при которых подобная глобальная оценка не составляет часть процедуры разработки стандартов (например, методы Ebel и Angoff), показатели дискриминации между классами и коэффициента детерминации (R2) не применяются (Cusimano, 1996).
При всех пороговых методах разработки стандартов с выставлением глобальной оценки в дополнение к оценкам в баллах из чек-листов сопутствующие показатели позволяют измерить качество оценки (см. табл. 2).
Показатель 1. Коэффициент надежности альфа Кронбаха
Выборка общих суммарных показателей в этом руководстве будет нужна для иллюстрации использования психометрических данных в действии и для того, чтобы обрисовать подходы к выявлению низкого качества оценки на уровне отдельных станций и к принятию соответствующих мер. Мы выбрали более старые данные по ОСКЭ, что позволяет лучше осветить вопросы качества и последующие действия по улучшению результатов.
Это мера внутреннего постоянства (что часто, хотя не вполне точно расценивается как надежность): при хорошей оценке лучше подготовленные студенты должны показывать относительно лучшие результаты на всех станциях (показатели в контрольных перечнях для каждой станции). Коэффициент альфа можно рассчитывать в двух вариантах: без стандартизации или стандартизованный; и в данном руководстве мы имеем в виду коэффициент без стандартизации (вариант, по умолчанию используемый в Пакете программ обработки статистических данных социальных наук, Statistical Package for the Social Sciences -SPSS). Это показатель средней взаимной корреляции, взвешенной по дисперсиям, который дает то же значение, что и коэффициент G для простой модели с сопоставлением показателей оценки и кандидатов. Значение (общее) коэффициента альфа, которое обычно считается приемлемым при важных с использованием стандартизированных моделей и реальных пациентов, когда показатели для отдельных станций не стандартизованы, составляет ≥0,7.
Если показатели станции стандартизованы, ожидаемое значение коэффициента альфа выше. Коэффициент альфа для этого набора станций составлял 0,754, и можно видеть (см. 2-й столбец в табл. 2), что ни одна из станций не уменьшала общей надежности оценки, хотя станции 17 и 20 мало что добавляли к результату.
Поскольку коэффициент альфа возрастает с увеличением числа элементов оценки, итоговые показатели "альфа при исключении элемента оценки" должны быть ниже общих коэффициентов альфа, если элемент оценки/станция пройдена хорошо. Это может быть не так по следующим причинам:
- данный элемент оценки измеряет нечто отличное от остальных элементов набора;
- элемент оценки выбран неудачно;
- есть проблемы, связанные с преподаванием: либо оцениваемую тему преподавали плохо, либо разным группам кандидатов преподавали по разным стандартам;
- экзаменаторы проводят оценку по общим стандартам.
В подобных обстоятельствах нужно повысить качество оценки, а для этого пересматривают станции, дизайны чек-листа и самой станции либо оценивают качество преподавания в рамках учебного плана.
Однако полагаться только на коэффициент альфа как на показатель качества оценки нельзя. Как мы продемонстрировали, при возрастании числа элементов оценки возрастает и коэффициент альфа, поэтому шкала оценки может выглядеть более однородной, чем на самом деле, если она содержит достаточно элементов. Это означает, что при объединении 2 шкал, измеряющих разные наборы показателей, в одну длинную шкалу, в результате может быть получен неоправданно высокий коэффициент альфа. Кроме того, набор элементов может дать высокий коэффициент альфа и при этом быть многофакторным. Это случается при наличии отдельных наборов элементов (измеряющих разные параметры) с высокой взаимной корреляцией, притом что сами наборы данных не слишком коррелируют друг с другом.
Коэффициент альфа может быть слишком высоким (например, >0,9), что, вероятно, указывает на избыточность оценки; в то же время низкие значения коэффициента альфа иногда могут быть обусловлены значительными различиями в средних баллах для разных станций, а не плохой разработкой станций.
Нужно подчеркнуть, что в медицинском вузе у авторов руководства и во многих других подобных институтах в Великобритании во время проведения ОСКЭ требуется свыше 1000 экзаменаторов (обычно масштаб проводимого экзамена в 2-3 раза превышает вышеописанный). Таким образом, набор достаточного количества экзаменаторов приемлемого качества - это вечная проблема, поэтому невозможно внедрить двойную оценку, которая сделают целесообразным использование коэффициента обобщаемости (G) для более точного количественного определения различий между экзаменаторами. Анализы такого типа сложнее, чем те, что рассмотрены в данном руководстве, и часто требуют использования дополнительного, более сложного программного обеспечения. Решение на уровне организации: что использовать - коэффициент G или коэффициент альфа Кронбаха, - должно учитывать требования к характеру учебного процесса и недостатки, присущие методу.
Эффект "ястребов и голубей"*, и в рамках одной станции, и в целом, приводит к нежелательным эффектам, в том числе к завышенному значению коэффициента альфа. Однако, вероятно, что это приведет к неудовлетворительным значениям коэффициента детерминации, дисперсии между группами внутри одной станции и, возможно, к фиксированным различиям между центрами проведения экзамена, которые будут рассмотрены в данном руководстве ниже. Мы полагаем, что одного показателя, в том числе коэффициента альфа, всегда недостаточно для оценки качества, и в случае ОСКЭ с высоким значением коэффициента альфа, но с низкими значениями других показателей о высоком качестве оценки говорить нельзя.
*Тенденция одних преподавателей завышать, а других занижать оценки всем экзаменуемым.
В качестве другого способа оценки, отличного от определения коэффициента альфа при исключении элемента, можно использовать корреляцию результата на конкретной станции с общим показателем за вычетом результата на данной станции. Это позволит получить более протяженную шкалу, но значение данных (т.е. корреляция) между вкладом в надежность или снижение надежности до некоторой степени зависят от дизайна оценки, поэтому труднее поддаются интерпретации.
Показатель 2. Коэффициент детерминации R2
Коэффициент R2 представляет пропорциональное изменение зависимой переменной (результат в чек-листе), обусловленное изменениями в независимой переменной (глобальная оценка). Это позволяет оценить степень (линейной) корреляции между результатом в чек-листе и глобальной оценкой для каждой станции с ожиданием, что более высокие глобальные оценки в целом будут соответствовать более высоким результатам по чек-листам. Квадратный корень из коэффициента детерминации представляет собой простой коэффициент корреляции по Пирсону. sPss и другие статистические программные пакеты также позволяют рассчитать скорректированное значение R2, учитывающее размер выборки и число прогностических факторов в модели (в данном случае один); в идеале это значение должно быть близко к нескорректированному значению.
Хорошая корреляция (R2 >0,5) указывает на достаточную связь между результатами в чек-листе и глобальной оценкой, но необходимо убедиться, что чрезмерно детализированные общие показатели не переводятся экзаменаторами автоматически в соответствующий результат в чек-листе, искусственно завышая R2. В табл. 2 у станции 14 (оценка практических и медико-юридических навыков) высокое значение коэффициента R2 (0,697) означает, что 69,7% различий в глобальных оценках студентов объясняется различиями в их результатах по чек-листам.
Каждое решение на уровне организации: что использовать - коэффициент G или альфа Кронбаха, - должно учитывать требования к характеру учебного процесса и существующие ограничения.
Станция 19 отличается худшими показателями - значение R2 равно 0,404. Это была новая станция, посвященная обеспечению безопасности пациентов и действиям при травме от укола иглой. Чтобы понять, почему значение R2 низкое, полезно представить связь между результатами по чек-листу и глобальными оценками графически (например, используя функцию SPSS "Оценка кривых"), чтобы исследовать точный характер этой связи (см. рис. 2). На рис. 2 глобальные оценки, выставленные экзаменаторами, отложены по оси абсцисс, а общие результаты по чек-листам - по оси ординат. Сгруппированные результаты чек-листов обозначены размером черных кружков (см. рис. 2). Программа SPSS может рассчитывать коэффициент R2 для многочленов разной степени и, таким образом, обеспечивать дополнительную информацию по степени линейности взаимосвязи. Мы рекомендуем всегда строить диаграмму рассеяния для результатов по чек-листам относительно глобальных оценок как часть стандартной практики, независимо от показателей для данной станции.
На станции 19 мы видим две основные проблемы - широкий разброс результатов для каждого показателя глобальной оценки и очень широкий разброс результатов для глобальной оценки "не сдано" (0 на оси абсцисс). Это указывает на то, что некоторые студенты получили много положительных отметок по чек-листу, однако общий результат экзамена не удовлетворил экзаменатора, что привело к глобальной оценке "не сдано".
Во введении мы уже говорили о влиянии выпадающих показателей на метод регрессии. Примеры низких оценок по чек-листам с достаточно высокими глобальными оценками показаны на рис. 3. На других станциях мы иногда видим, что кандидаты получили очень мало отметок в чек-листах. Это ведет к уменьшению отрезка, отсекаемого на вертикальной оси уравнением регрессии, и возрастанию угла наклона графика уравнения регрессии. Для данных в табл. 2 исключение выпадающих значений с перерасчетом общего проходного балла и проходного балла для отдельных станций очень мало влияет на результаты, увеличивая проходной балл менее чем на 0,2%.
Мы рекомендуем всегда строить диаграмму рассеяния для результатов по чек-листам относительно глобальных оценок в рамках стандартной практики независимо от показателей для данной станции.
Эта неудовлетворительная связь между оценками по чек-листам и глобальными оценками приводит к некоторой нелинейности, что видно из табл. 3 (по результатам расчета в программе SPSS), где хорошо заметно, что лучше всего данную связь можно описать кубическим уравнением. Следует отметить, что с математической точки зрения кубическое уравнение всегда обеспечивает наилучшее описание, однако принципы целесообразности требуют, чтобы различие между двумя кривыми было статистически значимо для выбора модели более высокого порядка. В данном примере приближение для кубического многочлена статистически значимо лучше, чем для линейной модели. В таких случаях важно понять, чем является кубическое уравнение - результатом взаимосвязи результатов в чек-листе с глобальной оценкой или это связано с выпадающими показателями вследствие плохо продуманного дизайна чек-листа либо неприемлемого образа действий экзаменатора при выставлении оценок в чек-листе. Оценивая это, читатели должны изучить распределение оценок, которое можно увидеть на диаграмме рассеяния. Наш опыт свидетельствует, что при хороших показателях на станциях отклонение от строгой линейности не должно вызывать беспокойство (см табл. 3).
Низкие значения R2 и/или широкий разброс баллов данной оценки для некоторых станций должны побудить к пересмотру чек-листа по данной теме либо дизайна станции. В данном случае, хотя и планировалось, что основной акцент при экзамене на данной станции будет сделан на безопасных, эффективных действиях, перепроверка чек-листа в свете полученных показателей продемонстрировала, что этот акцент был недостаточно четким. Более слабые кандидаты были в состоянии получить достаточно много отметок в чек-листе за выполнение, однако они не удовлетворяли более высоким ожиданиям (акцент на принятие решений). Ситуацию исправили, переписав станцию и чек-лист по ней, чтобы при следующем ОСКЭ заново использовать эту станцию с последующим анализом полученных на ней результатов.
Показатель 3. Дискриминация между классами
Данный статистический показатель дает угол наклона кривой регрессии и показывает среднее возрастание оценки в чек-листе при возрастании на один уровень по шкале глобальной оценки. Хотя четкого руководства или идеальных значений не существует, мы рекомендуем, чтобы показатель дискриминации составлял около 0,1 максимальной возможной оценки в чек-листе (по нашим данным, это обычно составляет 30-35).
Низкое значение дискриминации между классами часто сопровождается неудовлетворительными значениями других показателей для данной станции, например, низкими значениями R2 (указывает на недостаточную связь между глобальной оценкой и результатами в чек-листе) или высокой дисперсией ошибки у экзаменатора (см. ниже показатель 5), в тех случаях, когда экзаменаторы не использовали общий стандарт. Слишком высокие значения дискриминации между классами могут указывать либо на слишком низкий проходной балл, либо на отсутствие линейности вследствие небольшого числа не сдавших студентов (они делают подъем кривой регрессии более крутым).
При очень низких оценках студентов по баллам в чек-листе следует рассмотреть вопрос, нужно ли исключать эти очень низкие баллы из разработки стандарта, чтобы избежать избыточного влияния на общий проходной балл экзамена в сторону снижения.
Возвращаясь к табл. 2, мы видим, что показатели дискриминации между классами в целом приемлемы для разных станций (максимальные оценки для станций находятся в диапазоне 30-35 пунктов), хотя есть 3 станции, показатели дискриминации для которых выше 5 (например, станция 14 -станция оценки навыков, включающая заполнение формы для кремации умершего).
Если есть сомнения о прохождении станции, основанные на показателе дискриминации, зачастую информативными оказываются возвращение к показателю дисперсии R2 и повторная оценка кривой. В табл. 2 у станции 14 наиболее высокий показатель дискриминации между классами, а из рис. 3 видно, что для большинства показателей глобальной оценки вновь очень широк разброс баллов по чек-листам, особенно для оценки "сдано" - значение 2 на оси абсцисс в диапазоне от 4 до 27; однако самые низкие из этих значений явно выпадают. Поскольку остальные показатели для этой станции приемлемы, в эту станцию можно не вносить изменения, однако она требует пристального наблюдения при дальнейшей оценке.
Показатель 4. Число результатов "не сдано"
Было бы ошибочно автоматически считать, что необычно высокое число результатов "не сдано" указывает на слишком высокую сложность станции. "Проверка на соответствие действительности" - неотъемлемая часть пороговых методов, в значительной степени она компенсирует сложность станции. Она представляет собой экспертное суждение, сделанное квалифицированными экзаменаторами, по определению глобальной оценки при результатах, ожидаемых от минимально компетентного студента.
Как уже было сказано выше, при изучении дизайна оценочной станции и получаемых на ней результатов для выявления проблем могут использоваться другие психометрические данные. Частоту отметок "не сдано" можно использовать для оценки влияния изменений в преподавании определенной темы: если частота таких результатов возрастает, пересмотр содержания курса и методов обучения может улучшить его преподавание. Значимых выпадающих значений для этого показателя в табл. 2 нет, но проблемы со станцией 19 позволили нам их выявить и модифицировать преподавание, касающееся вопросов безопасности пациента, в программе последнего года обучения, а также повысить внимание к этим вопросам безопасности в чек-листах.
Показатель 5. Различия между группами (включая эффекты со стороны экзаменатора)
При анализе данных, полученных в результате комплексных оценок, таких как ОСКЭ, где студентов в практических целях неизбежно приходится делить на группы, крайне важно, чтобы дизайн исследования был полностью рандомизирован. Однако это не всегда возможно по чисто организационным причинам, например наличие студентов с особыми потребностями, которым необходимо больше времени и которых необходимо экзаменовать в рамках отдельного цикла. Любые неслучайно подобранные подгруппы нужно исключать из статистических анализов, которые в качестве ключевого допущения опираются на случайный характер данных.
В идеальном процессе оценки все различия в них будут обусловлены различиями в подготовленности студентов, а не в окружении (например, местные вариации в устройстве станции или оборудовании), расположении (например, центры проведения экзамена в больницах с разными местными подходами к ведению определенных клинических состояний) или в отношении экзаменаторов ("ястребы и голуби"). Существуют два способа измерения таких эффектов: либо посредством однофакторного дисперсионного анализа данных по станции (например, с экзаменатором в качестве фиксированного эффекта), либо посредством расчета доли общей дисперсии, которая специфична для каждой группы. 2-й способ позволяет оценить долю различий баллов в чек-листах, которая обусловлена подготовкой студентов, в отличие от других возможных факторов, перечисленных выше, хотя обычно этот показатель указывается как доля дисперсии, специфичная для данной цепочки.
Если компоненты дисперсии рассчитываются с использованием группы (т.е. цепочки) в качестве случайного эффекта, можно рассчитать процентную долю дисперсии, специфичную для группы. Это очень мощный критерий - он очень хорошо отражает единообразие процесса оценки для разных групп. Кроме того, он сравнительно просто рассчитывается. В идеале, различия между группами не должны превышать 30%, а значения, превышающие 40%, должны служить поводом для беспокойства, так как они указывают на возможные проблемы на уровне станции, связанные с непоследовательным поведением экзаменатора и/или с другими специфическими характеристиками цепочки, а не с подготовленностью студентов.
Исходя из табл. 2 станции 6, 17 и 19 дают повод для беспокойства на основании этого показателя - различия между группами для них наиболее высоки. Кроме того, у станции 6 низкий коэффициент R2, а общее сочетание неудовлетворительных значений показателей для нее указывает на то, что низкий коэффициент R2, вероятно, обусловлен плохо разработанным чек-листом. Эти наблюдения привели к пересмотру дизайна станции 6: было обнаружено, что чек-лист содержал много критериев низкого уровня, благодаря которым плохо подготовленные кандидаты могут набрать высокие баллы, просто выполняя определенные действия. Иными словами, вероятно расхождение между содержанием чек-листа, целями и задачами данной станции в понимании экзаменаторов. Поэтому при переработке данной станции ряд критериев низкого уровня объединили, чтобы сформировать критерий более высокого уровня и облегчить оценку процессов более высокого уровня, как это было задумано изначально.
Со станцией 17 проблема иная - высокое значение R2 в сочетании с высоким показателем различий между группами свидетельствует о том, что экзаменаторы проводят оценку внутри разных групп систематично, однако между группами заметен отчетливый эффект "ястребов и голубей". В подобном случае следует изучить этот результат посредством однофакторного дисперсионного анализа, чтобы определить, чем это обусловлено - конкретным экзаменатором или местом проведения экзамена. Дисперсия, обусловленная разными центрами проведения экзамена, включается в простой расчет дисперсии между группами внутри одной станции, как описано выше. Однако ее значимость можно определить посредством однофакторного дисперсионного анализа с центрами проведения экзамена в качестве фиксированных эффектов.