Введение
Оценка - важный компонент обучения, ее содержание определяет, что наиболее важно в учебной программе, и направляет обучение. Для успешного проведения любых оценочных мероприятий, будь то текущая (формирующая) оценка или итоговая - экзамен, необходимо ее тщательно спланировать, последовательно проходя через несколько этапов.
1. Определить цель оценки (зачем?).
2. Определить содержание (что?).
3. Определить подходящие методы и инструменты для оценки (как?).
4. Cформировать конкретное мероприятие с учетом весовой доли тем (когда?).
5. Определить стандарты оценки и пороговые баллы (ну и что?).
В результате изучения этого руководства вы сможете освоить первые 4 этапа планирования экзамена, в результате выполнения которых формируется матрица или схема экзамена, представляющая собой спецификацию в табличном виде и отражающую содержание, инструменты оценки в зависимости от ее целей, а также весовые коэффициенты, определяющие объем различных тем и доменов оценки в экзамене.
Матрицы позволяют адекватно оценивать содержание курса, отражать основные цели и задачи курса - материал, который необходимо изучить, определить форматы, соответствующие оцениваемым знаниям, умениям и навыкам.
Матрицы могут использоваться не только для построения экзамена, но и для других целей: они демонстрируют студентам темы, которые наиболее важны в программе, и служат для них компасом; способствуют обучению, предоставляя учащимся основу или схему курса обучения; доносят ожидания от учебного курса до всех заинтересованных сторон (слушателей, других преподавателей, администрации).
I этап. Определение целей оценки (зачем?)
В качестве цели оценки могут быть выбраны и конкретные, подробные наборы знаний и навыков, которые, как вы ожидаете, должны знать и уметь студенты по результатам освоения темы, и обобщенные, описывающие ожидания после завершения курса, или врачи для подтверждения своей квалификации.
Самые распространенные обобщенные цели экзамена:
· Отбор абитуриентов для поступления в медицинский вуз или колледж.
· Оценка усвоения материала дисциплины, курса.
· Итоговая оценка компетентности на выпускном экзамене после завершения обучения в вузе или окончания ординатуры.
· Оценка готовности к оказанию медицинской помощи (лицензионные экзамены, аккредитация специалистов).
· Отбор кандидатов при приеме на работу в медицинские организации.
· Контроль освоения программ дополнительного профессионального образования в системе НМО.
· Присвоение квалификационной категории.
Ряд целей характерен для образовательных организаций (медицинские вузы, факультеты и колледжи). В этом случае матрица экзамена должна отражать цели и структуру учебной программы - оценивается то, чему обучали. При этом распределение весовых коэффициентов будет напрямую связано с количеством часов, отведенных на определенную тему. В то же время матрица может быть основой и для формирования учебных программ [8, 9].
В случае отбора кандидатов при приеме на работу и текущей оценки практикующих специалистов обычно применяется другой подход, отражающий ожидания работодателя по выполнению трудовых функций. В этом случае содержание такого экзамена не обязательно должно коррелировать с учебной программой образовательных организаций, для работодателей гораздо важнее пригодность специалиста к работе на определенной должности - в этом случае требования к знаниям, умениям и навыкам при приеме на работу могут отличаться в рамках одной специальности и отражать функции должности.
В качестве подробных и конкретных целей оценки могут выступать темы и разделы дисциплины. Например, для оценки компетентностей, связанных с аускультацией сердца, можно предположить следующие подробные цели.
· Перечислить 3 причины аортального стеноза.
· Сравнить и противопоставить характеристики функционального систолического и патологического шума.
· Правильно определить распространенные систолические шумы на аудиозаписи.
· Объяснить маневр, позволяющий отличить аортальный стеноз от гипертрофической обструктивной кардиомиопатии.
· Выполнить маневр, позволяющий отличить аортальный стеноз от гипертрофической обструктивной кардиомиопатии.
· Выбрать наиболее экономически эффективный метод обследования пациента с подозрением на шумы в сердце.
· Правильно расположить пациента и датчик и выполнить эхокардиографию, чтобы визуализировать аортальный клапан в виде короткой оси.
Все навыки, описанные в целях, важны. Однако помните, что эти навыки в корне отличаются друг от друга. Одни требуют знания, а другие - действия. В когнитивной психологии используется ряд рамок для классификации знаний, умений и навыков. Наиболее распространенной стала пирамида Миллера, которая хорошо отделяет знание от действия [11]. Она состоит из 4 уровней: знает, умеет, показывает и делает. Эта пирамида может служить полезным инструментом для разработки и организации списка целей обучения для курса, и мы рассмотрим ее подробнее при обсуждении III этапа.
· Другой полезной схемой является таксономия Блума [4]. Она включает в себя 3 области навыков.
· Когнитивные: знания и когнитивные навыки.
· Аффективные: отношение, чувства/эмоции и навыки межличностного общения.
· Психомоторные: сенсорное восприятие, мелкая и крупная моторика.
Некоторые цели из перечисленных выше могут касаться только одной области. Например, цель обучения "Распознать, что маневр Вальсальвы усиливает шум, связанный с гипертрофической обструктивной кардиомиопатией" является в первую очередь когнитивной. Другие цели обучения могут включать все три аспекта. Например, учебная задача "Правильное размещение стетоскопа требует знания того, куда и зачем его прикладывать" включает в себя знание локализации (когнитивное), общение с пациентом (аффективное), а затем фактическое размещение (психомоторное).
Поскольку большая часть медицины - и большая часть оценки - связана с когнитивной областью, давайте рассмотрим ее подробнее. Комитет, возглавляемый Блумом, который заседал с 1948 по 1953 г., предложил 6 уровней в когнитивной области, где каждый последующий уровень подразумевает бóльшую глубину обучения. Эти уровни - знание, понимание, применение, анализ, синтез и оценка. Позже эти уровни были обновлены с использованием новых терминов и немного измененного порядка [3]; это "запоминание", "понимание", "применение", "анализ", "оценка" и "создание". Для большинства целей оценки два самых низких уровня (знание/понимание или запоминание/понимание) могут быть сгруппированы в общий набор заданий "Распознавание и запоминание", а остальные 4 можно объединить в группу "Применение и критическое мышление".
Несмотря на то что модель Блума часто критикуют как кабинетную теорию, которая не соответствует сложности сферы обучения, и, конечно, чрезмерное упрощение предполагать, что учащийся должен двигаться от основания пирамиды к вершине, таксономия имеет смысловую ценность, помогая различать виды обучения, которые вовлечены в сложное поведение, связанное с приобретением знаний. Большинство критических замечаний в адрес таксономии Блума относятся к руководству обучением. Однако мы советуем использовать ее для планирования оценки. Несмотря на несовершенство, таксономия Блума является наиболее "независимой от теорий" таксономией. Таксономия Блума до сих пор - самая изящная из используемых.
Когнитивная сфера таксономии включает в себя знания и развитие интеллектуальных навыков. Сюда входит запоминание или распознавание конкретных фактов, процедурных схем и концепций, которые служат развитию интеллектуальных способностей и навыков. Группа Блума разработала путь, состоящий из 6 этапов обучения.
Шесть ступеней (или уровней, или категорий) не являются абсолютными, и они не включают такие базовые функции, как способность наблюдать.
Таким образом, навыки в когнитивной области вращаются вокруг знаний, понимания и критического мышления. Ниже показаны 6 уровней когнитивной области таксономии Блума - от процессов низшего порядка к высшим (табл. 1). Обратите внимание, что это поведенческая модель, и реакции (или поведение, которое может указывать на обучение) выражены в измеримых терминах [12].
Аффективная область также разделена с использованием более конкретной и иерархической таксономии. В связи с возросшим в настоящее время интересом к этике, профессионализму, холистической медицине и коммуникативным навыкам, эта область приобретает все большее значение для оценки.
Аффективная область описывает, как мы эмоционально относимся к вещам, например чувства, ценности, благодарность, энтузиазм, мотивацию и отношение. Пять основных категорий: от самого простого поведения до самого сложного, выглядят следующим образом (табл. 2) [9].
II этап. Определение содержания оценки (что?)
Как определить содержание экзамена? Матрица экзамена формируется в зависимости от содержания специальностей или дисциплин.
В клинических специальностях и дисциплинах, охватывающих различные системы организма, к примеру "Терапия", "Общая врачебная практика", "Педиатрия", "Онкология" и др., подход к созданию матрицы может быть основан на разделах учебных программ, используемых в образовательных организациях при планировании выпускных или аккредитационных экзаменов по завершении программ специалитета. Контент обычно разделяется согласно органам и системам (колонка 1), а далее определяются конкретные проблемы, с которыми сталкивается практикующий врач (колонка 2) (табл. 3).
Если рассматривать более узкие клинические специальности и дисциплины, такие как "Кардиология", "Неврология", "Урология", "Офтальмология", "Оториноларингология" и др., контент целесообразно разделять по группам заболеваний, уточняя их конкретными нозологиями. Для примера представлен фрагмент первых колонок матрицы для специальности "Кардиология".
После того как определены темы экзамена, необходимо выделить домены оценки. Домены оценки - это знания и умения, клинические действия, которые необходимо оценивать, в привязке к конкретным темам. Среди клинических действий можно выделить следующие домены.
· Сбор жалоб и анамнеза.
· Назначение исследований.
· Постановка диагноза.
· Лечение (консервативное, хирургическое).
· Разъяснение пациенту его состояния (консультирование).
В качестве примера приведен фрагмент матрицы по специальности "Гастроэнтерология" (табл. 5).
Отметки на пересечении соответствующих граф означают, что в рамках данной нозологии оценивается конкретный домен. Например, для функциональной диспепсии нужно оценивать навыки сбора жалоб и анамнеза, для язвенной болезни - все существующие домены.
III этап. Выбор подходящих методов и инструментов для оценки (как?)
После того как содержание экзамена определено и распределено по доменам, необходимо подобрать соответствующие инструменты для оценки каждого клинического действия, выделенного в ячейках матрицы. Для каждого домена существуют свои методы оценки.
На следующем графике показаны некоторые из этих методов, упорядоченные по континууму достоверности (насколько формат оценки похож на реальное рабочее задание) и надежности (насколько воспроизводимы результаты теста при различных оценках) (рис. 1).
Существует ряд различий между методами оценки по мере продвижения по континууму.
1. Методы наверху списка лучше оценивают знания, а методы ниже лучше оценивают действия.
2. Методы, расположенные сверху, как правило, быстро и эффективно разрабатываются и оцениваются, в то время как методы, расположенные ниже, в основном более дорогостоящие и/или требуют много времени.
3. Методы, расположенные снизу, более реалистичны, так как они лучше воспроизводят естественную среду и с большей вероятностью проверяют клинические навыки, представляющие наибольший интерес для оценки. К сожалению, для получения этой точности приходится идти на компромисс, так как они также имеют тенденцию к получению менее надежных оценок.
Все методы оценки можно также разделить на 3 широкие категории.
Письменные экзамены: например, MCQ (Metacognitions Questionnaire), эссе.
Моделирование и симуляция: например, стандартизированные пациенты, Объективный структурированный клинический экзамен (ОСКЭ) и устные экзамены (эти методы имитируют когнитивные, аффективные или психомоторные навыки, необходимые в условиях практики).
Оценка на рабочем месте: например, обратная связь 360°, прямое наблюдение (Direct Observation of Procedural Skills, DOPS), прямое наблюдение за работой с пациентом (Direct Observation Clinical Encounter Examination, DOCEE).
Подробнее инструменты оценки, их преимущества и недостатки, а также отношение к таксономии Блума и пирамиде Миллера описаны в табл. 6.
Революционная пирамида Джорджа Миллера [11, 22], предложенная в 1990 г., применяется в качестве основного руководства для оценки уровня образования медицинских работников в течение последних двух десятилетий. Миллер создал пирамидальную структуру для оценки клинической компетентности, в которую входили следующие уровни: "знает", "знает как", "показывает как" и "делает" (рис. 2).
Основание пирамиды ("знает") отражает фактические знания, накопленные знания, знание информации, полученные в ходе изучения базовых дисциплин, в ходе лекций и изучения учебных материалов. Например, из курса нормальной физиологии студент узнает нормы значения гемоглобина у пациентов различного возраста и пола. А из курса нормальной анатомии знает строение аппендикса, его отношение к брюшине, источники кровоснабжения и особенности расположения сосудов брюшной полости.
Уровень выше - "знает как" предполагает, что специалист применяет полученные знания на практике. Например, зная из курса патологической физиологии нормальное значение гемоглобина и механизм его снижения, сможет интерпретировать данные клинического анализа крови и предположить звено патогенеза, имеющее место у пациента, представленного в виде клинической задачи. Или другой пример: на цикле оперативной хирургии студент изучил технику (последовательность этапов) аппендэктомии и, применяя свои знания анатомии, понимает, почему разрез выполняется в определенной области и каким способом можно выделить интересующие структуры.
Третий уровень пирамиды "показывает" означает, что обучающийся может показать ход выполнения процедуры в симулированных (безопасных) условиях. Например, работая с симулированным пациентом и анализируя результаты клинического анализа крови на станции ОСКЭ, студент способен сформулировать диагноз. В случае с оперативной хирургией: ординатор может показать на станции ОСКЭ технику проведения аппендэктомии на муляже органов брюшной полости.
Высший уровень пирамиды "делает" - это применение всего перечисленного на практике. Гематолог консультирует пациентов с анемией и назначает им соответствующее лечение. Хирург регулярно оперирует пациентов с острым аппендицитом.
Из этой простой схемы следует несколько выводов.
Во-первых, подходы к оценке каждого сегмента пирамиды усложняются по мере подъема по уровням. Очевидно, что невозможно оценить компетентность практикующего врача только письменным экзаменом. Невозможно так составить тестовое задание или вопрос, предполагающий развернутый ответ, чтобы проверить, насколько искусно врач может оперировать пациента.
Во-вторых, инструменты, используемые для оценки на разных уровнях пирамиды, должны быть валидными [5], т.е. "соответствовать измеряемому конструкту", проще говоря, метод должен оценивать именно то, что мы собираемся оценить. К сожалению, в оценочной практике в России этот принцип часто не соблюдается. Можно проиллюстрировать такое несоответствие на следующем примере: на станции ОСКЭ кандидат не выполняет действия, необходимые по протоколу операции, а проговаривает их, и это считается проверкой владения навыком. Однако данный подход в корне неправильный. В указанной ситуации проверяется не выполнение в симулированных условиях (уровень "показывает как"), а "знает как", т.е. перечисление действий. Если цель оценки - проверка клинического мышления, то тест на знания классификаций и принципов лечения не является валидным инструментом. Для этого существуют другие методы: например, устный экзамен.
В-третьих, по мере движения к верхушке пирамиды должны возрастать реалистичность, достоверность и комплексность оценки. Очевидно, что сложнее всего точно и надежно оценить работу независимых специалистов в реальной практике (на уровне "делает"). Чем выше в пирамиде расположены оцениваемые навыки, тем более оценка должна быть приближена к условиям реальной жизни. Это не делает оценку на рабочем месте невозможной, просто она требует более комплексного подхода, сама оценка становится более трудоемкой, ее надежность и генерализуемость снижаются в связи с малым количеством наблюдений. Так, если целью является оценка врача акушера-гинеколога в разрезе всей специальности, то невозможно судить о его оперативных навыках, наблюдая только за тем, как он ведет консультативный прием, даже с блестящими результатами. Иначе говоря, высокий результат в одной области не гарантирует такие же успехи в другой. В данном случае высокой надежности достичь сложно. Можно понаблюдать за тем же врачом в операционной или в родильном зале, но и это не даст гарантированного результата. За время наблюдений мы увидели взаимодействие врача с пациентами, представляющими лишь ряд нозологий и вмешательств. Например, весь операционный день был посвящен выполнению гистероскопии. Мы по-прежнему не знаем, как врач выполняет гистерэктомию. Можно было бы наблюдать дольше. Можно было бы добавить число наблюдателей. Однако все эти меры делают оценку экономически невыгодной, становится понятно, что уже не надежность, а выполнимость выходит на первый план.
На самом деле при выборе метода оценки в расчет нужно брать еще больше показателей. Они учтены в формуле пользы оценки, предложенной в 1996 г. C. van der Vleuten [20]:
U = W R × W V × W E × W A × W C
U = Utility (польза)
R = Reliability (надежность)
V = Validity (валидность)
E = Educational Impact (образовательный эффект)
A = Acceptability (приемлемость)
C = Cost/Available Resources (стоимость/ресурсы)
W = Weight (вес) - удельный вес каждого показателя
Показателей надежности и валидности мы уже коснулись ранее. Разберем остальные.
Как мы уже говорили выше, образовательный эффект оценки отражает выражение "Оценка определяет обучение", обучающиеся больше всего внимания будут уделять именно тому, что будет проверяться на экзамене. Если какая-то часть курса или программы не оценивается вообще, то велика вероятность, что студенты уделяют ей мало внимания. Образовательный эффект зависит и от выбранной формы оценки. Если экзамен состоит из тестовых вопросов на основе фактических знаний, то мы, скорее, будем ожидать от студента зазубривание фактов из учебника или (что намного хуже) правильного ответа, особенно если вся база тестовых заданий с ответами находится в открытом доступе. Естественно, что подготовка к экзамену в этом случае будет задействовать лишь кратковременные ресурсы памяти. В исследовании, проведенном Van Luijk и соавт. [21], было установлено, что уровень компетентности студентов, демонстрируемый в ходе ОСКЭ, за несколько лет значительно снизился. Оказалось, что студенты продавали чек-листы, используемые в предыдущие годы, что привело к тому, что последовательность действий просто зазубривалась для демонстрации на экзамене. Это пример неожиданного образовательного влияния, "побочного эффекта" оценки. С другой стороны, нельзя назвать его слишком неожиданным: использование бинарного чек-листа со строгой последовательностью действий имеет такой же эффект и у нас. Минимизация доменов/рубрик оценки и уход от бинарного чек-листа с использованием рейтинговых шкал способствуют качественной оценке и демонстрирует не только факт, но и качество продемонстрированного поведения в том или ином домене.
Стоимость (ресурсоемкость) оценки, наверное, не требует разъяснений. Этот показатель складывается не только из прямых денежных затрат, но и таких ресурсов, как использование помещений, преподавателей или внешних экзаменаторов, временные затраты на разработку оценочных форм и тестовых заданий.
Приемлемость - еще один важный компонент оценки. Любые изменения в процессе обучения и оценки возможны только с согласия администрации учебного заведения, а также находятся под влиянием традиций и убеждений преподавателей, экзаменаторов и самих обучающихся.
Важно понимать, что формула, предложенная Van der Vleuten [20], не дает числовые значения, это концептуальная модель, отражающая вклад каждого компонента в финальный результат. Идеальное значение недостижимо. В зависимости от конкретных целей и условий удельный вес каждого показателя будет меняться, а значит, одним из множителей можно пожертвовать в пользу другого. Например, если проводится оценка высокой значимости, которая будет иметь значительные последствия для будущего экзаменуемых (лицензионный экзамен), то в большей мере будет учитываться показатель надежности. Если мы говорим о текущей оценке (на одном из этапов учебной программы), то на первый план выходит образовательный эффект, например обратная связь о результатах экзамена и меры по повышению успеваемости. Математический принцип соблюдается лишь в том, что если вес одного из компонентов равен нулю, то и произведение будет иметь значение 0: надежный, валидный и выполнимый экзамен, который не принимается всеми заинтересованными сторонами, в конечном счете не приживется.
В дальнейшем мы будем опираться на модель пирамиды Миллера, но именно в ее классическом понимании. За 25 лет ее существования появились и инновационные варианты ее трактовки, оспаривающие принцип иерархии и сужения, предлагая принцип "вложенности", новый уровень компетентности "является" и определение "орбит" оценки [2]. Все же в данном руководстве мы будем рассматривать вопросы составления тестовых заданий - один из самых популярных и устоявшихся методов оценки, существовавший уже к моменту создания Миллером его пирамиды.