РУКОВОДСТВО. ПЛАНИРОВАНИЕ ОЦЕНКИ. МАТРИЦА ЭКЗАМЕНА

Резюме

Оценка - важный компонент обучения, ее содержание определяет, что наиболее важно в учебной программе, и направляет обучение. Для успешного проведения любых оценочных мероприятий, будь то текущая (формирующая) оценка или итоговая - экзамен, необходимо ее тщательно спланировать, последовательно проходя через несколько этапов.

В результате изучения этого руководства вы сможете освоить первые 4 этапа планирования экзамена, в результате выполнения которых формируется матрица, или схема экзамена, представляющая собой спецификацию в табличном виде и отражающую содержание, инструменты оценки в зависимости от ее целей, а также весовые коэффициенты, определяющие объем различных тем и доменов оценки в экзамене.

Матрицы позволяют адекватно оценивать содержание курса, отражать основные цели и задачи курса - материал, который необходимо изучить, определить форматы, соответствующие оцениваемым знаниям, умениям и навыкам.

Матрицы могут использоваться не только для построения экзамена, но и для других целей: они демонстрируют студентам темы, которые наиболее важны в программе и служат для них компасом; способствуют обучению, предоставляя учащимся основу или схему курса обучения; доносят ожидания от учебного курса до всех заинтересованных сторон (слушателей, других преподавателей, администрации).

Ключевые слова:оценка; знания; умения; навыки; матрица экзамена; медицинское образование

Финансирование. Исследование не имело спонсорской поддержки.

Конфликт интересов. Авторы заявляют об отсутствии конфликта интересов.

Для цитирования: Балкизов З.З., Алексеева А.Ю., Ашхотов Э.Р., Ступин В.А., Семенова Т.В. Руководство. Планирование оценки. Матрица экзамена // Медицинское образование и профессиональное развитие. 2023. Т. 14, № 1. С. 18-40. DOI: https://doi.org/10.33029/2220-8453-2023-14-1-18-40

Введение

Оценка - важный компонент обучения, ее содержание определяет, что наиболее важно в учебной программе, и направляет обучение. Для успешного проведения любых оценочных мероприятий, будь то текущая (формирующая) оценка или итоговая - экзамен, необходимо ее тщательно спланировать, последовательно проходя через несколько этапов.

1. Определить цель оценки (зачем?).

2. Определить содержание (что?).

3. Определить подходящие методы и инструменты для оценки (как?).

4. Cформировать конкретное мероприятие с учетом весовой доли тем (когда?).

5. Определить стандарты оценки и пороговые баллы (ну и что?).

В результате изучения этого руководства вы сможете освоить первые 4 этапа планирования экзамена, в результате выполнения которых формируется матрица или схема экзамена, представляющая собой спецификацию в табличном виде и отражающую содержание, инструменты оценки в зависимости от ее целей, а также весовые коэффициенты, определяющие объем различных тем и доменов оценки в экзамене.

Матрицы позволяют адекватно оценивать содержание курса, отражать основные цели и задачи курса - материал, который необходимо изучить, определить форматы, соответствующие оцениваемым знаниям, умениям и навыкам.

Матрицы могут использоваться не только для построения экзамена, но и для других целей: они демонстрируют студентам темы, которые наиболее важны в программе, и служат для них компасом; способствуют обучению, предоставляя учащимся основу или схему курса обучения; доносят ожидания от учебного курса до всех заинтересованных сторон (слушателей, других преподавателей, администрации).

I этап. Определение целей оценки (зачем?)

В качестве цели оценки могут быть выбраны и конкретные, подробные наборы знаний и навыков, которые, как вы ожидаете, должны знать и уметь студенты по результатам освоения темы, и обобщенные, описывающие ожидания после завершения курса, или врачи для подтверждения своей квалификации.

Самые распространенные обобщенные цели экзамена:

· Отбор абитуриентов для поступления в медицинский вуз или колледж.

· Оценка усвоения материала дисциплины, курса.

· Итоговая оценка компетентности на выпускном экзамене после завершения обучения в вузе или окончания ординатуры.

· Оценка готовности к оказанию медицинской помощи (лицензионные экзамены, аккредитация специалистов).

· Отбор кандидатов при приеме на работу в медицинские организации.

· Контроль освоения программ дополнительного профессионального образования в системе НМО.

· Присвоение квалификационной категории.

Ряд целей характерен для образовательных организаций (медицинские вузы, факультеты и колледжи). В этом случае матрица экзамена должна отражать цели и структуру учебной программы - оценивается то, чему обучали. При этом распределение весовых коэффициентов будет напрямую связано с количеством часов, отведенных на определенную тему. В то же время матрица может быть основой и для формирования учебных программ [8, 9].

В случае отбора кандидатов при приеме на работу и текущей оценки практикующих специалистов обычно применяется другой подход, отражающий ожидания работодателя по выполнению трудовых функций. В этом случае содержание такого экзамена не обязательно должно коррелировать с учебной программой образовательных организаций, для работодателей гораздо важнее пригодность специалиста к работе на определенной должности - в этом случае требования к знаниям, умениям и навыкам при приеме на работу могут отличаться в рамках одной специальности и отражать функции должности.

В качестве подробных и конкретных целей оценки могут выступать темы и разделы дисциплины. Например, для оценки компетентностей, связанных с аускультацией сердца, можно предположить следующие подробные цели.

· Перечислить 3 причины аортального стеноза.

· Сравнить и противопоставить характеристики функционального систолического и патологического шума.

· Правильно определить распространенные систолические шумы на аудиозаписи.

· Объяснить маневр, позволяющий отличить аортальный стеноз от гипертрофической обструктивной кардиомиопатии.

· Выполнить маневр, позволяющий отличить аортальный стеноз от гипертрофической обструктивной кардиомиопатии.

· Выбрать наиболее экономически эффективный метод обследования пациента с подозрением на шумы в сердце.

· Правильно расположить пациента и датчик и выполнить эхокардиографию, чтобы визуализировать аортальный клапан в виде короткой оси.

Все навыки, описанные в целях, важны. Однако помните, что эти навыки в корне отличаются друг от друга. Одни требуют знания, а другие - действия. В когнитивной психологии используется ряд рамок для классификации знаний, умений и навыков. Наиболее распространенной стала пирамида Миллера, которая хорошо отделяет знание от действия [11]. Она состоит из 4 уровней: знает, умеет, показывает и делает. Эта пирамида может служить полезным инструментом для разработки и организации списка целей обучения для курса, и мы рассмотрим ее подробнее при обсуждении III этапа.

· Другой полезной схемой является таксономия Блума [4]. Она включает в себя 3 области навыков.

· Когнитивные: знания и когнитивные навыки.

· Аффективные: отношение, чувства/эмоции и навыки межличностного общения.

· Психомоторные: сенсорное восприятие, мелкая и крупная моторика.

Некоторые цели из перечисленных выше могут касаться только одной области. Например, цель обучения "Распознать, что маневр Вальсальвы усиливает шум, связанный с гипертрофической обструктивной кардиомиопатией" является в первую очередь когнитивной. Другие цели обучения могут включать все три аспекта. Например, учебная задача "Правильное размещение стетоскопа требует знания того, куда и зачем его прикладывать" включает в себя знание локализации (когнитивное), общение с пациентом (аффективное), а затем фактическое размещение (психомоторное).

Поскольку большая часть медицины - и большая часть оценки - связана с когнитивной областью, давайте рассмотрим ее подробнее. Комитет, возглавляемый Блумом, который заседал с 1948 по 1953 г., предложил 6 уровней в когнитивной области, где каждый последующий уровень подразумевает бóльшую глубину обучения. Эти уровни - знание, понимание, применение, анализ, синтез и оценка. Позже эти уровни были обновлены с использованием новых терминов и немного измененного порядка [3]; это "запоминание", "понимание", "применение", "анализ", "оценка" и "создание". Для большинства целей оценки два самых низких уровня (знание/понимание или запоминание/понимание) могут быть сгруппированы в общий набор заданий "Распознавание и запоминание", а остальные 4 можно объединить в группу "Применение и критическое мышление".

Несмотря на то что модель Блума часто критикуют как кабинетную теорию, которая не соответствует сложности сферы обучения, и, конечно, чрезмерное упрощение предполагать, что учащийся должен двигаться от основания пирамиды к вершине, таксономия имеет смысловую ценность, помогая различать виды обучения, которые вовлечены в сложное поведение, связанное с приобретением знаний. Большинство критических замечаний в адрес таксономии Блума относятся к руководству обучением. Однако мы советуем использовать ее для планирования оценки. Несмотря на несовершенство, таксономия Блума является наиболее "независимой от теорий" таксономией. Таксономия Блума до сих пор - самая изящная из используемых.

Когнитивная сфера таксономии включает в себя знания и развитие интеллектуальных навыков. Сюда входит запоминание или распознавание конкретных фактов, процедурных схем и концепций, которые служат развитию интеллектуальных способностей и навыков. Группа Блума разработала путь, состоящий из 6 этапов обучения.

Шесть ступеней (или уровней, или категорий) не являются абсолютными, и они не включают такие базовые функции, как способность наблюдать.

Таким образом, навыки в когнитивной области вращаются вокруг знаний, понимания и критического мышления. Ниже показаны 6 уровней когнитивной области таксономии Блума - от процессов низшего порядка к высшим (табл. 1). Обратите внимание, что это поведенческая модель, и реакции (или поведение, которое может указывать на обучение) выражены в измеримых терминах [12].

Аффективная область также разделена с использованием более конкретной и иерархической таксономии. В связи с возросшим в настоящее время интересом к этике, профессионализму, холистической медицине и коммуникативным навыкам, эта область приобретает все большее значение для оценки.

Аффективная область описывает, как мы эмоционально относимся к вещам, например чувства, ценности, благодарность, энтузиазм, мотивацию и отношение. Пять основных категорий: от самого простого поведения до самого сложного, выглядят следующим образом (табл. 2) [9].

II этап. Определение содержания оценки (что?)

Как определить содержание экзамена? Матрица экзамена формируется в зависимости от содержания специальностей или дисциплин.

В клинических специальностях и дисциплинах, охватывающих различные системы организма, к примеру "Терапия", "Общая врачебная практика", "Педиатрия", "Онко­логия" и др., подход к созданию матрицы может быть основан на разделах учебных программ, используемых в образовательных организациях при планировании выпускных или аккредитационных экзаменов по завершении программ специалитета. Контент обычно разделяется согласно органам и системам (колонка 1), а далее определяются конкретные проблемы, с которыми сталкивается практикующий врач (колонка 2) (табл. 3).

Если рассматривать более узкие клинические специальности и дисциплины, такие как "Кардиология", "Неврология", "Урология", "Офтальмология", "Оториноларингология" и др., контент целесообразно разделять по группам заболеваний, уточняя их конкретными нозологиями. Для примера представлен фрагмент первых колонок матрицы для специальности "Кардиология".

После того как определены темы экзамена, необходимо выделить домены оценки. Домены оценки - это знания и умения, клинические действия, которые необходимо оценивать, в привязке к конкретным темам. Среди клинических действий можно выделить следующие домены.

· Сбор жалоб и анамнеза.

· Назначение исследований.

· Постановка диагноза.

· Лечение (консервативное, хирургическое).

· Разъяснение пациенту его состояния (консультирование).

В качестве примера приведен фрагмент матрицы по специальности "Гастроэнтерология" (табл. 5).

Отметки на пересечении соответствующих граф означают, что в рамках данной нозологии оценивается конкретный домен. Например, для функциональной диспепсии нужно оценивать навыки сбора жалоб и анамнеза, для язвенной болезни - все существующие домены.

III этап. Выбор подходящих методов и инструментов для оценки (как?)

После того как содержание экзамена определено и распределено по доменам, необходимо подобрать соответствующие инструменты для оценки каждого клинического действия, выделенного в ячейках матрицы. Для каждого домена существуют свои методы оценки.

На следующем графике показаны некоторые из этих методов, упорядоченные по континууму достоверности (насколько формат оценки похож на реальное рабочее задание) и надежности (насколько воспроизводимы результаты теста при различных оценках) (рис. 1).

Существует ряд различий между методами оценки по мере продвижения по континууму.

1. Методы наверху списка лучше оценивают знания, а методы ниже лучше оценивают действия.

2. Методы, расположенные сверху, как правило, быстро и эффективно разрабатываются и оцениваются, в то время как методы, расположенные ниже, в основном более дорогостоящие и/или требуют много времени.

3. Методы, расположенные снизу, более реалистичны, так как они лучше воспроизводят естественную среду и с большей вероятностью проверяют клинические навыки, представляющие наибольший интерес для оценки. К сожалению, для получения этой точности приходится идти на компромисс, так как они также имеют тенденцию к получению менее надежных оценок.

Все методы оценки можно также разделить на 3 широкие категории.

Письменные экзамены: например, MCQ (Metacognitions Questionnaire), эссе.

Моделирование и симуляция: например, стандартизированные пациенты, Объективный структурированный клинический экзамен (ОСКЭ) и устные экзамены (эти методы имитируют когнитивные, аффективные или психомоторные навыки, необходимые в условиях практики).

Оценка на рабочем месте: например, обратная связь 360°, прямое наблюдение (Direct Observation of Procedural Skills, DOPS), прямое наблюдение за работой с пациентом (Direct Observation Clinical Encounter Examination, DOCEE).

Подробнее инструменты оценки, их преимущества и недостатки, а также отношение к таксономии Блума и пирамиде Миллера описаны в табл. 6.

Революционная пирамида Джорджа Миллера [11, 22], предложенная в 1990 г., применяется в качестве основного руководства для оценки уровня образования медицинских работников в течение последних двух десятилетий. Миллер создал пирамидальную структуру для оценки клинической компетентности, в которую входили следующие уровни: "знает", "знает как", "показывает как" и "делает" (рис. 2).

Основание пирамиды ("знает") отражает фактические знания, накопленные знания, знание информации, полученные в ходе изучения базовых дисциплин, в ходе лекций и изучения учебных материалов. Например, из курса нормальной физиологии студент узнает нормы значения гемоглобина у пациентов различного возраста и пола. А из курса нормальной анатомии знает строение аппендикса, его отношение к брюшине, источники кровоснабжения и особенности расположения сосудов брюшной полости.

Уровень выше - "знает как" предполагает, что специалист применяет полученные знания на практике. Например, зная из курса патологической физиологии нормальное значение гемоглобина и механизм его снижения, сможет интерпретировать данные клинического анализа крови и предположить звено патогенеза, имеющее место у пациента, представленного в виде клинической задачи. Или другой пример: на цикле оперативной хирургии студент изучил технику (последовательность этапов) аппендэктомии и, применяя свои знания анатомии, понимает, почему разрез выполняется в определенной области и каким способом можно выделить интересующие структуры.

Третий уровень пирамиды "показывает" означает, что обучающийся может показать ход выполнения процедуры в симулированных (безопасных) условиях. Например, работая с симулированным пациентом и анализируя результаты клинического анализа крови на станции ОСКЭ, студент способен сформулировать диагноз. В случае с оперативной хирургией: ординатор может показать на станции ОСКЭ технику проведения аппендэктомии на муляже органов брюшной полости.

Высший уровень пирамиды "делает" - это применение всего перечисленного на практике. Гематолог консультирует пациентов с анемией и назначает им соответствующее лечение. Хирург регулярно оперирует пациентов с острым аппендицитом.

Из этой простой схемы следует несколько выводов.

Во-первых, подходы к оценке каждого сегмента пирамиды усложняются по мере подъема по уровням. Очевидно, что невозможно оценить компетентность практикующего врача только письменным экзаменом. Невозможно так составить тестовое задание или вопрос, предполагающий развернутый ответ, чтобы проверить, насколько искусно врач может оперировать пациента.

Во-вторых, инструменты, используемые для оценки на разных уровнях пирамиды, должны быть валидными [5], т.е. "соответствовать измеряемому конструкту", проще говоря, метод должен оценивать именно то, что мы собираемся оценить. К сожалению, в оценочной практике в России этот принцип часто не соблюдается. Можно проиллюстрировать такое несоответствие на следующем примере: на станции ОСКЭ кандидат не выполняет действия, необходимые по протоколу операции, а проговаривает их, и это считается проверкой владения навыком. Однако данный подход в корне неправильный. В указанной ситуации проверяется не выполнение в симулированных условиях (уровень "показывает как"), а "знает как", т.е. перечисление действий. Если цель оценки - проверка клинического мышления, то тест на знания классификаций и принципов лечения не является валидным инструментом. Для этого существуют другие методы: например, устный экзамен.

В-третьих, по мере движения к верхушке пирамиды должны возрастать реалистичность, достоверность и комплексность оценки. Очевидно, что сложнее всего точно и надежно оценить работу независимых специалистов в реальной практике (на уровне "делает"). Чем выше в пирамиде расположены оцениваемые навыки, тем более оценка должна быть приближена к условиям реальной жизни. Это не делает оценку на рабочем месте невозможной, просто она требует более комплексного подхода, сама оценка становится более трудоемкой, ее надежность и генерализуемость снижаются в связи с малым количеством наблюдений. Так, если целью является оценка врача акушера-гинеколога в разрезе всей специальности, то невозможно судить о его оперативных навыках, наблюдая только за тем, как он ведет консультативный прием, даже с блестящими результатами. Иначе говоря, высокий результат в одной области не гарантирует такие же успехи в другой. В данном случае высокой надежности достичь сложно. Можно понаблюдать за тем же врачом в операционной или в родильном зале, но и это не даст гарантированного результата. За время наблюдений мы увидели взаимодействие врача с пациентами, представляющими лишь ряд нозологий и вмешательств. Например, весь операционный день был посвящен выполнению гистероскопии. Мы по-прежнему не знаем, как врач выполняет гистерэктомию. Можно было бы наблюдать дольше. Можно было бы добавить число наблюдателей. Однако все эти меры делают оценку экономически невыгодной, становится понятно, что уже не надежность, а выполнимость выходит на первый план.

На самом деле при выборе метода оценки в расчет нужно брать еще больше показателей. Они учтены в формуле пользы оценки, предложенной в 1996 г. C. van der Vleuten [20]:

U = W R × W V × W E × W A × W C

U = Utility (польза)

R = Reliability (надежность)

V = Validity (валидность)

E = Educational Impact (образовательный эффект)

A = Acceptability (приемлемость)

C = Cost/Available Resources (стоимость/ресурсы)

W = Weight (вес) - удельный вес каждого показателя

Показателей надежности и валидности мы уже коснулись ранее. Разберем остальные.

Как мы уже говорили выше, образовательный эффект оценки отражает выражение "Оценка определяет обучение", обучающиеся больше всего внимания будут уделять именно тому, что будет проверяться на экзамене. Если какая-то часть курса или программы не оценивается вообще, то велика вероятность, что студенты уделяют ей мало внимания. Образовательный эффект зависит и от выбранной формы оценки. Если экзамен состоит из тестовых вопросов на основе фактических знаний, то мы, скорее, будем ожидать от студента зазубривание фактов из учебника или (что намного хуже) правильного ответа, особенно если вся база тестовых заданий с ответами находится в открытом доступе. Естественно, что подготовка к экзамену в этом случае будет задействовать лишь кратковременные ресурсы памяти. В исследовании, проведенном Van Luijk и соавт. [21], было установлено, что уровень компетентности студентов, демонстрируемый в ходе ОСКЭ, за несколько лет значительно снизился. Оказалось, что студенты продавали чек-листы, используемые в предыдущие годы, что привело к тому, что последовательность действий просто зазубривалась для демонстрации на экзамене. Это пример неожиданного образовательного влияния, "побочного эффекта" оценки. С другой стороны, нельзя назвать его слишком неожиданным: использование бинарного чек-листа со строгой последовательностью действий имеет такой же эффект и у нас. Минимизация доменов/рубрик оценки и уход от бинарного чек-листа с использованием рейтинговых шкал способствуют качественной оценке и демонстрирует не только факт, но и качество продемонстрированного поведения в том или ином домене.

Стоимость (ресурсоемкость) оценки, наверное, не требует разъяснений. Этот показатель складывается не только из прямых денежных затрат, но и таких ресурсов, как использование помещений, преподавателей или внешних экзаменаторов, временные затраты на разработку оценочных форм и тестовых заданий.

Приемлемость - еще один важный компонент оценки. Любые изменения в процессе обучения и оценки возможны только с согласия администрации учебного заведения, а также находятся под влиянием традиций и убеждений преподавателей, экзаменаторов и самих обучающихся.

Важно понимать, что формула, предложенная Van der Vleuten [20], не дает числовые значения, это концептуальная модель, отражающая вклад каждого компонента в финальный результат. Идеальное значение недостижимо. В зависимости от конкретных целей и условий удельный вес каждого показателя будет меняться, а значит, одним из множителей можно пожертвовать в пользу другого. Например, если проводится оценка высокой значимости, которая будет иметь значительные последствия для будущего экзаменуемых (лицензионный экзамен), то в большей мере будет учитываться показатель надежности. Если мы говорим о текущей оценке (на одном из этапов учебной программы), то на первый план выходит образовательный эффект, например обратная связь о результатах экзамена и меры по повышению успеваемости. Математический принцип соблюдается лишь в том, что если вес одного из компонентов равен нулю, то и произведение будет иметь значение 0: надежный, валидный и выполнимый экзамен, который не принимается всеми заинтересованными сторонами, в конечном счете не приживется.

В дальнейшем мы будем опираться на модель пирамиды Миллера, но именно в ее классическом понимании. За 25 лет ее существования появились и инновационные варианты ее трактовки, оспаривающие принцип иерархии и сужения, предлагая принцип "вложенности", новый уровень компетентности "является" и определение "орбит" оценки [2]. Все же в данном руководстве мы будем рассматривать вопросы составления тестовых заданий - один из самых популярных и устоявшихся методов оценки, существовавший уже к моменту создания Миллером его пирамиды.

Для оценки применения знаний на практике (уровень "знает как" пирамиды Миллера) обоснованно применение клинических тестовых заданий с несколькими вариантами ответов (подробнее принципы составления таких заданий подробно разобраны в соответствующем руководстве [24]. В этом случае оцениваются не фактические знания (припоминание фактов), а умение их применять, клиническое мышление. Этим инструментом мы можем оценить такие домены, как назначение исследований, постановка диагноза, назначение лечения, ограниченно сбор жалоб и анамнеза и физикальный осмотр (в когнитивном домене таксономии Блума). Тестовые задания имеют свои преимущества: за фиксированный промежуток времени можно получить ответы на большое количество вопросов с минимальными затратами ресурсов (тестирование в настоящее время проводится за компьютером, а оценка количества правильных ответов происходит автоматически). Такой широкий охват тем в экзамене с применением тестовых заданий позволяет повысить надежность оценки [6, 7]. Правильно составленные тестовые задания признаны надежным и валидным методом оценки.

Для оценки коммуникативных навыков и умений выполнения процедур (уровень "Показывает как" пирамиды Миллера) широко используется формат ОСКЭ, когда экзаменатор непосредственно наблюдает за ходом приема симулированного пациента или за выполнением процедур на практике (проведение физикального осмотра, техника оперативных вмешательств) с применением симуляторов или тренажеров. ОСКЭ позволяет охватить все домены матрицы, однако проведение ОСКЭ достаточно ресурсоемкий процесс (наличие соответствующих помещений, присутствие экзаменаторов, создание чек-листов, износ симуляторов, утомляемость симулированных пациентов, расходные материалы), поэтому использование его целесообразно там, где письменным или устным экзаменом невозможно валидно оценить выбранный домен [23].

Еще один инструмент, применимый в клиническом экзамене, - это структурированное собеседование по клиническому случаю. Это достаточно привычный для всех формат решения клинических задач, где экзаменуемому предоставляется в виде текста описание клинического случая, после которого следует ряд вопросов. Вопросы оцениваются по заранее разработанной шкале, что позволяет вести собеседование в правильном русле и минимизировать субъективность, свойственную устному экзамену. Данный метод позволяет оценить клиническое мышление кандидата в разрезе таких доменов, как назначение обследований, постановка диагноза, лечение. Однако при этом невозможно оценить навыки сбора жалоб и анамнеза, а также консультирование. Решение клинической задачи требует значительного количества времени на обдумывание и ответ, а несколько решенных задач не охватывают весь спектр нозологий (максимум 2-3). Также довольно велика погрешность, связанная с человеческим фактором (субъективность экзаменатора), которая отчасти нивелируется наличием стандартизированного чек-листа с заранее определенными стандартами ответов. Учитывая совокупность указанных недостатков, валидность и надежность этого метода оценки ниже приведенных выше.

Таким образом, получается, что каждый инструмент оценки имеет свои преимущества и ограничения [1] (табл. 7), и ни один инструмент в отдельности не может удовлетворить все потребности в оценке.

Возвращаясь к матрице, можно представить распределение инструментов оценки согласно доменам, разобранным ранее. На пересечении строк с указанием нозологий и столбцов с доменами оценки указываются конкретные инструменты оценки (табл. 8).

Для тех специальностей, которые встречаются с разным возрастом пациентов, целесообразно также его указывать. Таким образом, в матрице появляется дополнительная колонка, которая указывает, какие нозологии проверяются применительно к разному возрасту. Также можно учитывать контекст оказания помощи (плановые или экстренные ситуации), место оказания помощи (стационар, поликлиника), чтобы заранее продумать разбивку заданий. Пример реализации можно проиллюстрировать в табл. 9.

IV этап. Весовые коэффициенты

После того как определены методы оценки, необходимо определить весовые коэффициенты [10, 15]. Очевидно, что количество заданий в экзамене (например, тестовом) ограничено, и разные темы имеют различный приоритет (важность) в общей выборке.

Весовой коэффициент - это процент представленности темы или клинической проблемы в общей выборке экзамена. Этот коэффициент должен быть обоснован. Вот несколько подходов для определения весового коэффициента.

1. По принципу представленности в учебной программе.

2. Экспертный метод.

3. По принципу оценки статистики заболеваемости/критичности.

4. По принципу выполняемых трудовых функций.

Разберем каждый подход на примерах.

Первый путь по принципу соответствия учебной программе - в соответствии с объемом дисциплины или нозологии. Как правило, за основу берется Федеральный государственный образовательный стандарт (ФГОС), по которому происходит обучение в ординатуре, и необходимо определить количество часов, отводимых на каждую нозологию. При этом рассчитать распределение можно лишь для теоретической части. Практическая часть более вариабельна в зависимости от того, была ли полноценная ротация по отделениям (например, для хирургии), достаточно ли курирующий врач уделял внимания той или иной теме, а также от места прохождения ординатуры.

Экспертный метод представляет собой согласованное мнение экспертов или людей, принимающих решение. Это может быть команда специалистов по соответствующему профилю, а также представители системы здравоохранения. Команда экспертов в режиме синхронного или последовательного обсуждения утверждает согласованный процент представленности той или иной темы/нозологии в экзамене.

Можно подойти к расчету весовых коэффициентов согласно статистике заболеваемости в городе, регионе, стране в целом. Однако, помимо частоты заболеваемости, придется учитывать обращаемость в медицинские организации, процент осложнений при той или иной нозологии, число летальных исходов и многое другое. Например, частота нормальных родов в регионе превышает частоту оперативных родов, но это не означает, что число вопросов по нормальным родам должно превышать таковое в части оперативных родов. Ведь осложнения в результате нераспознавания случаев, требующих оперативного родоразрешения, более губительны для пациентов. Или другой пример - рак легких. Рак легких составляет 20% всех онкологических заболеваний, значит ли это, что весовой коэффициент данной нозологии в экзамене у онколога должен быть таким же? Такой высокий коэффициент означает, что остальным темам отводится меньшее количество заданий, значит, по результатам экзамена мы не узнаем, умеет ли врач распознавать более редкие, но при этом более опасные заболевания. Заболеваемость простатитом составляет 9%, но 35% из них выявляется при обращении к урологу. Значит ли это, что для терапевтов в экзамене число заболевших простатитом будет составлять 9%, а для урологов - 35? Наиболее распространенные заболевания наилучшим образом диагностируются и лечатся согласно утвержденным алгоритмам, в то время как редкие требуют более вдумчивого подхода в своевременном выявлении. Таким образом статистический метод определения весовых коэффициентов хоть и кажется на первый взгляд наиболее очевидным, требует учета слишком многих факторов и взвешенного решения.

Расчет весовых коэффициентов по принципу выполняемых трудовых функций учитывает два параметра: частота встречаемости нозологий и доменов в практике врача определенной должности, а также важность последствий (критичность). Иначе говоря, наибольший процент в распределении отводится наиболее часто встречаемым нозологиям, а также тем, которые оказывают большое влияние на здоровье пациента и исход (в том числе летальный), и наоборот [18].

Метод также позволяет учитывать экспертное мнение. Наглядно можно отобразить алгоритм определения весового коэффициента с помощью следующей таблицы (табл. 10).

Под критичностью (К) понимается степень важности проблемы, как, например, риск летального исхода или осложнений в случае несвоевременного выявления состояния пациента. Выражается она коэффициентом от 1 до 3, где 1 - нежизнеугрожающее, 2 - неотложное, 3 - угрожающее.

Частота (Ч) отражает встречаемость темы или нозологии в клинической практике согласно статистике. Также выражается числовым коэффициентом: 1 - редкое; 2 - распространенное; 3 - очень распространенное.

Коэффициенты определяются экспертами медицинской или образовательной организации, а затем перемножаются (К×Ч). Это произведение может иметь значение от 1 до 9. Затем суммируются произведения, вычисленные по всем нозологиям или темам. И, наконец, чтобы получить весовой коэффициент К×Ч делится на эту сумму.

Проиллюстрируем на примере весового коэффициента гиперкалиемии среди других синдромов, с которыми встречаются реаниматологи. Гиперкалиемия одновременно является и жизнеугрожающим (К=3) и частым состоянием (Ч=3) в их практике. Произведение К×Ч = 3×3=9. Аналогичные расчеты производятся для всех остальных синдромов. Допустим, что сумма всех К×Ч равна 80. Теперь, чтобы рассчитать весовой коэффициент, мы делим 9 на 80 и получаем 0,1125 в абсолютных числах, или 11,25%. Это и будет доля вопросов по теме "Гипергликемия" для экзамена по анестезиологии и реаниматологии.

Ни один из подходов не является идеальным и не может быть использован изолированно. Необходимо определить баланс между ними с учетом целей экзамена.

Литература

1.ACGME Outcomes Project & ABMS. Toolbox of assessment methods. Chicago, IL: Accreditation Council for Graduate Medical Education and American Board of Medical Specialties. 2000.

2.Al-Eraky M., Marei H. Свежий взгляд на пирамиду Миллера: оценка на уровне "является" и "делают" // Медицинское образование и профессиональное развитие. 2020. Т. 11, № 2. С. 118-126.

3.Anderson T., Dron J. Learning technology through three generations of technology enhanced distance learning pedagogy. 2012. Translation from Spanish at http://www.eurodl.org/materials/contrib/2012/Anderson_Dron.pdf

4.Bloom B.S., Engelhart M.D., Furst E.J., Hill W.H., Krathwohl D.R. (Eds.). Taxonomy of educational objectives - the classification of educational goals. Handbook 1: Cognitive Domain. London, WI: Longmans, Green & Co. Ltd, 1956.

5.Boulet J.R., Gimpel J.R. Errichetti A.M., Meoli F.G. Using national medical care survey data to validate examination // Journal of the American Osteopathic Association. 2003. Vol. 103, N 5. P. 225-231.

6.Downing & T.M. Haladyna (Eds.). Handbook of Test Development. Mahwah, NJ: Lawrence Erlbaum Associates. P. 181-223.

7.Downing S M., Yudkowsky R. Assessment in health professions education. New York, NY: Routledge, 2009.

8.Hamdy H. Blueprinting for the assessment of health care professionals // The clinical teacher 2006. Vol. 3. P. 175-9. URL: http://eppicinc.files.wordpress.com/2011/08/sugrue_bloom_critique_perfxprs.pdf

9.Krathwohl D.R., Bloom B.S., Masia B.B. Taxonomy of educational objectives, the classification of educational goals. Handbook II: Affective Domain. New York, David McKay Co., Inc., 1973.

10. Mark R. Raymond. Establishing weights for test plans for licensure and certification examinations // Applied measurement in education. 1996. Vol. 9, N 3. P. 237-256. DOI: https://doi.org/10.1207/s15324818ame0903_3

11. Miller G.E. The assessment of clinical skills/performance // Academic Medicine (Supplement). 1990. Vol. 65. P. S 63-S 70.

12. Moore D.S. Reconsidering Bloom’s Taxonomy of educational objectives, Cognitive domain // Educational Theory.1982. Vol. 32, N 1. P. 29-34.

13. Raymond M.R., Neustel S.N. Determining the content of credentialing examinations. Handbook of Test Development. In S. M, 2006. 44 p.

14. Raymond M.R. Job analysis and the specification of content for licensure and certification examinations // Applied Measurement in Education. 2001. Vol. 14. P. 369-415.

15. Raymond M., Grande J. A practical guide to test blueprinting // Medical Teacher. 2019. Vol. 41. P. 1-8. DOI: https://doi.org/10.1080/0142159X.2019.1595556

16. Representation of the “Miller´s Pyramid”, extracted from Wass V., van der Vleuten C., Shatzer J., Jones R. Assessment of clinical competence // Lancet. 2001. Vol. 357. P. 945-949.

17. Sugrue B. Problems with Bloom’s taxonomy, 2002.

18. Coderre S., Woloschuk W., McLaughlin K. Dr. Twelve tips for blueprinting // Medical Teacher. 2009. Vol. 31, N 4. P. 322-324. DOI: https://doi.org/10.1080/01421590802225770

19. Test Blueprinting II: Creating a Test Blueprint, NBME, 2019.

20. Van Der Vleuten C.P.M. The assessment of professional competence: Developments, research and practical implications // Adv. Health Sci. Educ. 1. 1966. P. 41-67. DOI: https://doi.org/10.1007/BF00596229

21. Van Luijk S.J., Van der Vleuten C.P.M. A comparison of checklists and rating scales in performance-based testing // Current Developments in Assessing Clinical Competence. Montreal: Can Health Publications. 1992. P. 357-382.

22. Wass V., van der Vleuten C., Shatzer J. Jones R. Assessment of clinical competence // Lancet. 2001. Vol. 357. P. 945-949.

23. Алексеева А.Ю., Балкизов З.З., Перельман В., Семенова Т.В., Сизова Ж.М. Объективный структурированный клинический экзамен как инструмент аккредитации медицинских специалистов // Медицинское образование и профессиональное развитие. 2018. № 1. С. 15-18.

24. Балкизов З.З., Алексеева А.Ю., Ашхотов Э.Р., Хадзугов А.Б., Ступин В.А. Руководство по составлению тестовых заданий с одним правильным ответом для клинических экзаменов высокой значимости // Медицинское образование и профессиональное развитие. 2022. Т. 13, № 2. С. 34-47.

Материалы данного сайта распространяются на условиях лицензии Creative Commons Attribution 4.0 International License («Атрибуция - Всемирная»)

ГЛАВНЫЙ РЕДАКТОР
ГЛАВНЫЙ РЕДАКТОР
Балкизов Залим Замирович
Генеральный секретарь Российского общества специалистов медицинского образования, директор Института подготовки специалистов медицинского образования ФГБОУ ДПО РМАНПО Минздрава России, профессор кафедры профессионального образования и образовательных технологий ФГАОУ ВО РНИМУ им. Н.И. Пирогова Минздрава России, генеральный директор компании ГЭОТАР-Мед, Советник Президента Национальной медицинской палаты, Москва, Российская Федерация

Журналы «ГЭОТАР-Медиа»