К содержанию
Спецвыпуск . 2022

РУКОВОДСТВО ПО СОСТАВЛЕНИЮ ТЕСТОВЫХ ЗАДАНИЙ С ОДНИМ ПРАВИЛЬНЫМ ОТВЕТОМ ДЛЯ КЛИНИЧЕСКИХ ЭКЗАМЕНОВ ВЫСОКОЙ ЗНАЧИМОСТИ

Резюме

Цель данного руководства - ​помочь преподавателям, авторам и всем тем, кто задействован в разработке экзаменов для медицинских специалистов, целью которых является надежная и валидная оценка знаний. Руководство содержит рекомендации, их разъяснение, примеры, распространенные ошибки, которые помогут начинающим авторам на пути составления тестовых заданий с одним правильным вариантом ответа. Мы надеемся, что данное руководство станет полезным и наглядным пособием для каждого медицинского преподавателя.

Ключевые слова:тестовые задания; клинические задачи; оценка; валидность; надежность; компетентность

Финансирование. Исследование не имело спонсорской поддержки.

Конфликт интересов. Авторы заявляют об отсутствии конфликта интересов.

Для цитирования: Балкизов З.З., Алексеева А.Ю., Ашхотов Э.Р., Хадзугов А.Б., Ступин В.А. Руководство по составлению тестовых заданий с одним правильным ответом для клинических экзаменов высокой значимости // Медицинское образование и профессиональное развитие. 2022. Т. 13, № 2. С. 34-47. DOI: https://doi.org/10.33029/2220-8453-2022-13-2-34-47

Компетентность медицинского работника, начинающего специалиста, студента-выпускника, ординатора складывается из различных компонентов, таких как знания, умения, отношения (или установки). Очевидно, что полноценная оценка такого специалиста должна включать в себя оценку перечисленных разделов (доменов) компетентности.

Формирование компетентности проходит ряд этапов, которые наглядно могут быть представлены в виде пирамиды Миллера. Революционная пирамида Джорджа Миллера, предложенная в 1990 г., применялась в качестве основного руководства для оценки уровня образования медицинских работников в течение последних двух десятилетий. Миллер создал пирамидальную структуру для оценки клинической компетентности, в которую входили следующие уровни: "ЗНАЕТ", "ЗНАЕТ КАК", "ПОКАЗЫВАЕТ КАК" и "ДЕЛАЕТ" (рис. 1).

Рис. 1. Пирамида Миллера

Основание пирамиды ("ЗНАЕТ") подразумевает под собой фактические знания, накопленные знания, знания информации, полученные в ходе изучения базовых дисциплин, в ходе лекций и изучения книжного материала. Например, из курса нормальной физиологии студент узнает нормы значения гемоглобина у пациентов различного возраста и пола. Или из курса нормальной анатомии знает строение аппендикса, его отношение к брюшине, источники кровоснабжения и особенности расположения сосудов брюшной полости.

Уровень выше - ​"ЗНАЕТ КАК" предполагает, что специалист применяет полученные фактические знания на практике. Например, зная из курса патологической физиологии нормальное значение гемоглобина и механизм его снижения, сможет интерпретировать данные клинического анализа крови и предположить звено патогенеза, имеющее место у пациента, представленного в виде клинической задачи. Или другой пример: на цикле оперативной хирургии студент выучил технику (последовательность этапов) аппендэктомии, понимает, почему разрез выполняется в определенной области и каким способом можно выделить интересующие структуры.

Третий уровень пирамиды "ПОКАЗЫВАЕТ КАК" означает, что обучающийся может показать ход выполнения процедуры в симулированных (безопасных) условиях. Например, анализируя результаты клинического анализа крови на станции объективного структурированного клинического экзамена (ОСКЭ), студент способен предположить диагноз у симулированного пациента (СП). В случае с оперативной хирургией ординатор может показать на станции ОСКЭ технику проведения аппендэктомии на муляже органов брюшной полости.

Высший уровень пирамиды - ​"ДЕЛАЕТ". Это применение всего перечисленного на практике. Гематолог консультирует пациентов с анемией и назначает им соответствующее лечение. Хирург регулярно оперирует пациентов с острым аппендицитом.

Из этой простой схемы следует несколько выводов.

Во-первых, подходы к оценке каждого из этих сегментов пирамиды должны усложняться по мере подъема на ней. Очевидно, что невозможно оценить компетентность практикующего врача письменным экзаменом. Невозможно так составить тестовое задание или вопрос, предполагающий развернутый ответ, чтобы проверить, насколько искусно врач может оперировать пациента.

Во-вторых, инструменты, используемые для оценки на разных уровнях пирамиды, должны быть валидными, т.е. соответствовать измеряемому конструкту, проще говоря, метод должен оценивать именно то, что мы собираемся оценить. К сожалению, в оценочной практике в России этот принцип часто не соблюдается. Можно проиллюстрировать такое несоответствие на следующем примере: на станции ОСКЭ кандидат не выполняет действия, необходимые по протоколу операции, а проговаривает их, и это считается проверкой владения навыком. Однако данный подход в корне неправильный. В указанной ситуации проверяется не выполнение в симулированных условиях (уровень "ПОКАЗЫВАЕТ КАК"), а "ЗНАЕТ КАК", т.е. перечисление действий. Если целью ставится проверка клинического мышления, то тест на знания классификаций и принципов лечения не является валидным инструментом. Для этого существуют другие методы: устный экзамен, например.

В-третьих, по мере движения к верхушке пирамиды должны возрастать реалистичность и комплексность оценки. Очевидно, что сложнее всего точно и надежно оценить работу независимых специалистов в реальной практике (на уровне "ДЕЛАЕТ"). Чем выше в пирамиде расположены оцениваемые навыки, тем больше оценка должна быть приближена к условиям реальной жизни. Это не делает оценку на рабочем месте невозможной, просто она требует более комплексного подхода, сама оценка становится более трудоемкой и ненадежной, ее нельзя проводить на больших выборках кандидатов. Под "ненадежностью" в данном случае подразумевается следующее: если целью является оценка врача - акушера-гинеколога в разрезе всей специальности, то невозможно судить о его оперативных навыках, даже если он блестяще ведет консультативный прием. Иначе говоря, высокий результат в одной области не гарантирует такие же успехи в другой. В данном случае высокой надежности достичь сложно. Можно понаблюдать за тем же врачом в операционной или в родзале, но и это не даст гарантированный результат. Давайте представим, что в период наблюдений мы увидели взаимодействие врача с пациентами, представляющими лишь ряд нозологий и вмешательств. Например, весь операционный день был посвящен выполнению гистероскопии. Мы по-прежнему не знаем, как врач выполняет гистерэктомию. Можно было бы наблюдать дольше. Можно было бы добавить число наблюдателей. Однако все эти меры делают оценку экономически невыгодной, становится понятно, что выполнимость, а не надежность, уже выходит на первый план.

На самом деле при выборе метода оценки в расчет нужно брать еще больше показателей. Они учтены в формуле пользы оценки, предложенной в 1996 г. C. van der Vleuten:

U = W R × WV × W E × W  A × WC,

где U - ​Utility (польза), R - ​Reliability (надежность), V - Validity (валидность), E - ​Educational Impact (образовательный эффект), A - ​Acceptability (приемлемость), C - Cost/Available Resources (стоимость/ресурсы), w - ​Weight (вес) - ​удельный вес каждого показателя.

Показателей надежности и валидности мы уже коснулись выше. Разберем ос­тальные.

Образовательный эффект оценки отражает выражение "Оценка определяет обучение". Попросту говоря, обучающиеся больше всего внимания в ходе обучения будут уделять именно тому, что будет проверяться на экзамене. Если какая-то часть курса или программы не оценивается вообще, то велика вероятность, что эффективность его очень низка. Образовательный эффект зависит и от выбранной формы оценки. Если экзамен состоит из тестовых вопросов на основе книжных знаний, то мы скорее будем ожидать от студента зазубривание фраз из учебника или (что намного хуже) правильного ответа, особенно если вся база тестовых заданий с ответами находится в открытом доступе. Естественно, что подготовка к экзамену в этом случае будет задействовать лишь кратковременные ресурсы памяти. В исследовании, проведенном Van Luijk и соавт. (1990), было установлено, что уровень компетентности студентов, демонстрируемый в ходе ОСКЭ, за несколько лет значительно снизился. Оказалось, что студенты продавали чек-листы, используемые в предыдущие годы, что привело к тому, что последовательность действий просто зазубривалась для демонстрации на экзамене. Это как раз пример неожиданного образовательного влияния, побочного эффекта оценки. С другой стороны, нельзя назвать его уж слишком неожиданным: использование бинарного чек-листа со строгой последовательностью действий имеет такой же эффект и в нашей стране. Минимализация рубрик и уход от бинарного чек-листа с использованием рейтинговых шкал способствуют качественной оценке в смысле оценки КАЧЕСТВА поведения в том или ином домене.

Стоимость (ресурсоемкость) оценки, возможно, не требует разъяснений. Этот показатель складывается не только из прямых денежных затрат, но и таких ресурсов, как использование помещений, преподавателей или внешних экзаменаторов, временные затраты на разработку оценочных форм и тестовых заданий.

Приемлемость - ​важнейший компонент оценки. Любые изменения в процессе обучения и оценки возможны только с согласия администрации учебного заведения, а также находятся под влиянием традиций и убеждений преподавателей, экзаменаторов и самих обучающихся.

Важно понимать, что формула, предложенная van der Vleuten, никогда не даст нам количественный показатель, это всего лишь концептуальная модель, отражающая вклад каждого компонента в финальный результат. Идеальное значение недостижимо. В зависимости от конкретных целей и условий удельный вес каждого показателя будет меняться, а значит, одним из множителей можно пожертвовать в пользу другого. Например, если проводится оценка высокой значимости, которая будет иметь значительные последствия для будущего экзаменуемых (лицензионный экзамен), то в большей мере будет учитываться показатель надежности. Если мы говорим о текущей оценке (на одном из этапов учебной программы), то на первый план выходит образовательный эффект, например обратная связь о результатах экзамена и меры по повышению успеваемости. Истинно математический принцип соблюдается лишь в том, что если один из компонентов равен нулю, то и произведение будет иметь значение 0: надежный, валидный и выполнимый экзамен, который не принимается всеми заинтересованными сторонами, в конечном счете не приживется.

В дальнейшем мы будем опираться на модель пирамиды Миллера, но именно в ее классическом понимании. За 25 лет ее существования появились и инновационные варианты ее трактовки, оспаривающие принцип иерархии и сужения, предлагая принцип "вложенности", новый уровень компетентности "ЯВЛЯЕТСЯ" и определение "орбит" оценки- Все же в данном руководстве мы будем рассматривать вопросы составления тестовых заданий - ​один из самых популярных и устоявшихся методов оценки, существовавший уже к моменту создания Миллером его пирамиды.

Тестовые задания с одним наиболее правильным ответом

Почему же мы решили посвятить целое руководство такому знакомому и общепринятому методу оценки, как тестовые задания?

Большую популярность данный тип письменного экзамена приобрел в середине прошлого века, и уже к концу века не осталось ни одного образовательного учреждения, которое бы ни имело его в своем арсенале. С совершенствованием компьютерных технологий тестирование стало самым массовым методом оценки, так как для проверки тестового экзамена теперь больше не нужны экзаменатор, сопоставление ответов с эталонными рамками, а в последние десятилетия даже ручки и бумага - ​тестирование проводится с использованием персональных компьютеров и даже мобильных устройств. Современное программное обеспечение даже может ранжировать результаты, рассчитывать статистические данные (например, психометрические показатели) и даже отправить экзаменуемому электронное письмо с результатами.

Очевидно, что стоимость такого экзамена, по крайней мере в части проведения, минимальна (мы исходим из того, что компьютерные классы сейчас не являются роскошью, а входят в стандарты оснащения любого образовательного учреждения). О стоимости разработки экзамена мы поговорим чуть позже.

Вторым несомненным плюсом является возможность оценки множества кандидатов одновременно. Всемирно известный экзамен USMLE (United States Medical Licensing Exam) на получение права работать врачом в США позволяет за один день с помощью тестирования оценить в рамках первого этапа тысячи кандидатов по всей стране.

Третьим и, пожалуй, самым значимым преимуществом является его высокая на­дежность, доказанная в ходе многочисленных исследований. Надежность обеспечивается тем, что одному экзаменуемому можно задать сотню (и даже более) вопросов из самых различных разделов за короткий промежуток времени. В то время как в ходе устного экзамена или письменного ответа на вопрос мы получаем информацию только касательно владения кандидатом одной ситуацией (одна нозология, одна тема, один клинический случай). Отсюда следует закономерность: чем больше выборка вопросов в тесте, тем выше его надежность (рис. 2).

Рис. 2. Размер выборки

Четвертым преимуществом является полное нивелирование участия экзаменатора, а значит, и компонента субъективности в сравнении с устным экзаменом или даже ОСКЭ. Отсюда следует и высокая приемлемость данного метода среди всех участников экзамена.

Валидность тестового экзамена целиком зависит от его содержания. И здесь нужно четко понимать, что является целью экзамена.

Представим себе, что цель экзамена А - ​оценка усвоения части курса по базовой дисциплине. Возьмем, к примеру, анатомию черепа, а цель экзамена Б - ​итоговая оценка специалиста по окончании ординатуры, к примеру терапевта. В экзамене А мы, очевидно, будем проверять фактические знания строения черепа, которые студент приобрел в ходе лекций, чтения учебника, работы с атласом и анатомической моделью. Это самый нижний уровень пирамиды Миллера, ее основание. В экзамене Б мы не можем ограничиться проверкой лишь фактических знаний. Это экзамен высокой значимости, успешно сдав который наш специалист перейдет к самостоятельной практике. Мы должны убедиться, что он не просто знает классификации, методы обследования и лечения, а умеет их применить на настоящем пациенте (второй уровень пирамиды Миллера) в конкретном клиническом контексте. Настоящий пациент для целей данного экзамена не пригоден из соображений безопасности, СП и ОСКЭ - ​дорогие методы для оценки большой выборки вопросов и кандидатов. И тут нам на помощь приходит один из самых простых видов симуляции - ​письменный. Мы представляем пациента текстом на бумаге, описываем его так же, как в истории болезни, и предлагаем кандидату ответить на вопрос. Это очень похоже на традиционную клиническую задачу, с которой все мы сталкивались на устном экзамене, только ответить нужно не устно, а письменно, не написав ответ, а выбрав его из предложенного списка. У нас получился тестовый вопрос с одним правильным ответом.

Структура тестового вопроса с одним наиболее правильным вариантом ответа

Рассмотрим анатомию такого типа вопросов.

Первая часть - ​это описание (представление) пациента, сценарий или контекст.

У 32-летнего мужчины в течение 4 дней прогрессирующая слабость в конечностях. Он был здоров, но 10 дней назад перенес инфекцию верхних дыхательных путей. Температура тела 37,7 °С, АД 130/80 мм рт.ст., пульс 94 в минуту, ЧДД 42 в минуту, дыхание поверхностное. У пациента симметричная слабость обеих сторон лица, в проксимальных и дистальных мышцах конечностей. Чувствительность не нарушена. Глубокие сухожильные рефлексы не вызываются; подошвенные рефлексы сгибательные.

Вторая часть - ​это подводящий вопрос, конкретный вопрос относительно представленного пациента.

Какой из диагнозов наиболее вероятен?

Далее следуют варианты ответа, один из которых является правильным (отмечен звездочкой), а цель остальных - ​отвлекать кандидата от правильного ответа, их называют дистракторами:

A. Острый рассеянный энцефаломиелит.

B. Синдром Гийена-Барре*.

C. Миастения gravis.

D. Полиомиелит.

E. Полимиозит.

Обратите внимание, что неправильные ответы не являются абсолютно неверными. Их можно изобразить на шкале следующим образом:

Несмотря на то что неправильные ответы не являются абсолютно неверными, они менее правильны, чем верный ответ. Экзаменуемый должен указать "наиболее вероятный диагноз". Эксперты согласятся с тем, что наиболее вероятным диагнозом будет ответ В и другие диагнозы тоже вероятны, но в значительно меньшей степени. Если варианты ответов представляют собой единую совокупность, в данном случае от "наименее вероятного" до "наиболее вероятного" диагноза, то отвлекающие ответы в задании с одним лучшим ответом не должны быть абсолютно неверными.

Используя различные подводящие вопросы, можно создать целый ряд заданий, сопряженных с одним условием: "Какое лабораторное исследование необходимо выполнить в первую очередь?", "Какой необходимый следующий шаг в лечении?" и т. д.

Поменяв в условии задания ключевой признак, т.е. набор элементов, отвечающих за конкретный диагноз (жалобы, характер инфекции, неврологическую симптоматику), можно создать задание с тем же набором вариантов ответов, при котором наиболее правильным будет уже другой вариант.

Для того чтобы варианты ответа располагались на одной шкале вероятности, необходимо, чтобы они все были однородными, т.е. все либо являлись диагнозами, либо методами исследования, либо лабораторными показателями, лекарственными препаратами, методами оперативного вмешательства и т. д.

Приведем пример тестового задания с неоднородными ответами.

Что характерно для муцинозной опухоли?

А. Обладает андрогенным эффектом.

Б. Большие размеры опухоли при первичном выявлении.

В. Чаще однокамерная.

Г. Характерны небольшие размеры опухоли с доброкачественным клиническим течением.

Во-первых, данный вопрос направлен на выявление фактических знаний, в нем нет клинического контекста, подводящий вопрос не сформулирован. Однако на данном примере мы хотим акцентировать внимание на том, что все варианты ответов относятся к различным характеристикам опухоли: А - ​гормональная активность; Б - ​раз­меры; В - ​строение; Г - ​сочетание размеров и доброкачественности. Если уж автору задания хочется проверить, как кандидат на практике проявит свои знания, то следует привести клиническое и ультразвуковое описание объемного образования. Вопрос надо сформулировать в сторону наиболее вероятного диагноза, а в вариантах ответа предложить различные виды объемных образований.

Грамотно составленное тестовое задание поддается правилу закрытых ответов. Заключается оно в следующем: если на вопрос можно ответить на основе описания, не видя вариантов ответа, значит, задание составлено хорошо.

Напомним, что мы говорим именно о контекстных тестовых заданиях. В ходе собственного обучения все мы сталкивались с тестовыми заданиями, которые были значительно короче и, возможно, проще. Приведем пример.

Какие УЗИ входят в FAST-протокол при первичном обследовании пациента:

А. УЗИ плевральных, брюшной и перикардиальной полостей*.

Б. УЗИ плевральной, брюшной полостей, вен нижних конечностей.

В. УЗИ плевральных и перикардиальной полостей.

Г. УЗИ брюшной и перикардиальной полостей, вен нижних конечностей.

Д. УЗИ плевральных и брюшной полостей, брахиоцефальных артерий.

Это так называемый бесконтекстный вопрос. Вопрос нацелен на проверку фактических знаний, запоминания протокола. Правильный ответ не изменится, если в вопросе добавить возраст, пол, описание состояния пациента. В данном типе заданий клиническое условие отсутствует в принципе, есть только вопрос с набором вариантов ответа. Задания подобного типа имеют право на существование, но не в рамках клинического экзамена. Их можно применять для оценки усвоения отдельных элементов учебной программы, курса, базовых дисциплин. Они проверяют экзаменуемого на самом нижнем уровне пирамиды Миллера, в то время как важнее всего проверить у медицинского работника способность именно ПРИМЕНЕНИЯ ЗНАНИЙ.

Структура сценария

Описание виртуального пациента в сценарии должно быть структурировано. Информация должна быть изложена в последовательности, близкой к таковой в истории болезни. Вот примерная структура элементов сценария:

Возраст, пол (например, женщина 35 лет).

Место оказания медицинской помощи (например, приемное отделение стационара).

Жалобы пациента (например, головная боль, слабость).

Длительность симптомов (например, 2 дня).

История болезни пациента, включая значимые элементы анамнеза, семейный анамнез, сопутствующие заболевания.

Данные объективного обследования.

Результаты лабораторных и инструментальных исследований.

Первоначальное лечение, результаты последующих обследований.

ОШИБКИ ПРИ СОСТАВЛЕНИИ ТЕСТОВЫХ ЗАДАНИЙ

Грамматические несоответствия

Грамматические несоответствия при составлении тестовых заданий могут дать подсказку кандидату.

Проиллюстрируем их на следующем примере.

У 12-летней девочки появилась внезапная одышка, а также сыпь в форме бабочки 2 нед назад. Температура тела 37,4 °C, ЧСС 120 в минуту. ЧДД 35 в минуту, с распространенными влажными хрипами в основании легких. На рентгенограмме выявлена кардиомегалия, СОЭ 63 мм/ч.

Самым важным исследованием для постановки диагноза является:

А. Выполнить ЭКГ.

Б. Измерить артериальное давление.

В. Титр антител к двухспиральной ДНК*.

Г. Рассмотреть биопсию легких.

Д. Уровни кальция в сыворотке крови и АПФ.

Такая формулировка подводящего вопроса предполагает продолжение фразы, а именно наименование исследования. Таким образом, варианты ответов А, В и Г, которые начинаются с глагола, автоматически исключаются. Ответ Д предполагает выбор более одного исследования. В итоге методом исключения единственным грамматически правильным вариантом ответа является ответ В.

Чтобы избежать грамматического несоответствия, необходимо формулировать подводящий вопрос таким образом, чтобы он был закрытым и заканчивался знаком вопроса. Варианты ответа должны начинаться с существительного в именительном падеже или глагола в инфинитиве.

Подводящий вопрос и варианты ответа в приведенном примере рекомендуется исправить следующим образом.

Какое исследование является самым важным для постановки диагноза?

А. ЭКГ.

Б. Измерение артериального давления.

В. Титр антител к двухспиральной ДНК.

Г. Биопсия легких.

Д. Определение уровня кальция в сыворотке крови и АПФ.

Логические несоответствия

Еще одной ошибкой составителя являются логические несоответствия.

Что характерно для нормального типа дыхания у ребенка?

А. Пауза после выдоха.

Б. Пауза после вдоха.

В. Одинаковое время вдоха и выдоха.

Г. Повышенная ЧСС при вдохе.

Д. Сниженная ЧДД с подъемом внутричерепного давления.

Очевидно, что изменения внутричерепного давления противоречат здоровью ребенка, так же как и изменение ЧСС. Таким образом, вместо пяти рабочих вариантов ответа, остается только три, что повышает вероятность угадывания правильного ответа с 20 до 33,3%.

Равномерность вариантов ответа

Из собственного учебного опыта многие помнят, что самый длинный и подробный вариант, скорее всего, является правильным. Пример:

Какой объем дополнительных исследований необходимо провести у данного пациента на догоспитальном этапе?

А. Пульсоксиметрия.

Б. ЭКГ, глюкометрия.

В. Глюкометрия, пульсоксиметрия.

Г. ЭКГ, глюкометрия, пульсоксиметрия*.

Д. ЭКГ, пульсоксиметрия.

Ответ Г в данном вопросе правильный. Он же самый подробный, включающий в себя другие варианты, что также является техническим недостатком под названием "пересечение", который мы рассмотрим ниже.

Пересечение

Существует еще один технический недостаток, позволяющий "умелым" студентам правильно отвечать на вопросы, не имея соответствующих знаний. Пример:

Что из перечисленного лучше всего описывает организмы, чаще всего вызывающие бактериальную пневмонию у детей?

А. Грамположительные кокки, в цепочках.

Б. Грамположительные кокки, в парах.

В. Грамотрицательные кокки, в парах.

Г. Грамотрицательные кокки, в цепочках.

Д. Грамположительные бациллы, в парах. Правильные ответы использованы чаще, чем неправильные. Вариант "грамположительные" встречается в ответах 3 раза из 5. "Кокки" встречаются 4 раза из 5. "В парах" встречается 3 раза из 5. Таким образом, "положительные", "пары" и "кокки" = Б.

Совпадение слов в описании и ответах

Данный недостаток проиллюстрируем примером.

7-летний мальчик направлен к вам с расстройством поведения и сложностями в обучении. У него проблемы в школе и дома, и он вызывающе противостоит авторитету, делая все, что ему говорят, наоборот.

Какой диагноз наиболее вероятен?

А. Синдром дефицита внимания с гиперактивностью.

Б. Расстройство аутистического спектра.

В. Нарушение привязанности.

Г. Специфическое нарушение способности к обучению.

Д. Вызывающее оппозиционное расстройство.

В самом условии есть подсказка в виде слов "вызывающе" и "наоборот". Таким образом, ничего не зная по теме, можно выбрать ответ, содержащий эти слова. И он окажется правильным.

Абсолютные или нечеткие ответы

В формулировке подводящего вопроса и вариантов ответов не должно быть как абсолютных формулировок ("никогда", "всегда", "хорошо", "плохо"), так и размытых, нечетких утверждений ("редко", "иногда", "часто", "возможно", "может быть").

Вот пример задания с указанными техническими ошибками.

Какое из следующих утверждений наиболее точно характеризует круп у детей?

А. Хорошо купируется декзаметазоном перорально.

Б. Может быть осложнением гиперкальциемии.

В. Никогда не наблюдается у пациентов младше 3 мес.

Г. Редко смертельно.

Д. Возможно, связана с незрелостью хрящевой ткани.

Во-первых, медицина - ​область неточная, здесь не бывает "всегда" и "никогда". Во-вторых, нечеткие утверждения, например "редко" и "часто", имеют субъективную окраску как для составителя задания, так и для экзаменуемого и базируются на личном опыте, который может не совпасть. В третьих, неоднозначные словосочетания "может быть" не имеют определенности и делают ответ одновременно возможным и невозможным.

Отрицание в вопросах или вариантах ответа

Например:

Что из этого не является причиной...?

Какое из этих лекарств не следует давать ребенку?

Что из перечисленного не характерно для...?

Никогда не используйте их. Они путают "хороших" студентов и являются плохими дискриминаторами (различителями).

"Ничего" или "все" перечисленное

В своей практике как обучающегося, так и преподавателя вы наверняка встречались с вопросами, в которых подводящий вопрос формулировался подобным образом. Пример:

Какие из следующих исследований лучше всего подходят для 5-летнего ребенка с внебольничной пневмонией средней тяжести?

А. Развернутый общий анализ крови.

Б. Посев крови.

В. C-реактивный белок.

Г. Рентгенография грудной клетки.

Д. Ничего из перечисленного.

Е. Все перечисленное.

Использование вариантов ответов Д и Е недопустимо, так как они включают в себя или исключают другие варианты ответа. Чаще всего автор использует такие формулировки, когда трудно придумать достаточно эффективные уникальные дистракторы.

Представление числовых показателей

При использовании вариантов ответа с числовыми параметрами необходимо, чтобы они были представлены в порядке возрастания/убывания в одинаковом формате. Недопустимо сочетание в одном наборе ответов конкретных значений и диапазонов. Помимо этого, недопустимо пересечение интервалов. Поясним это на следующем примере.

Какова доля детей в России, поступающих в больницу с бронхиолитом?

А. 1-5%.

Б. 3%.

В. Более 10%.

Г. 15%.

Д. 1/4 доли.

В данном примере варианты ответов А и В представлены диапазонами, в то время как варианты ответов Б, Г и Д - ​конкретными числовыми показателями. Помимо этого, область, охватываемая вариантом В, включает в себя варианты ответов Г и Д. Область, охватываемая вариантом ответа А, включает в себя вариант ответа Б. Еще очень выделяется из ряда вариант ответа Д. Очевидно, что сколько-нибудь образованный человек в состоянии перевести абсолютные доли в проценты, но не это является целью проверки. Поэтому данный набор ответов рекомендуется исправить следующим образом:

А. 1-3%.

Б. 4-9%.

В. 10-14%.

Г. 15-24%.

Д. 25-30%.

Таким образом, мы получили набор вариантов в арифметической последовательности, однородных единицах с непересекающимися равномерными интервалами. Теперь мы можем быть уверены, что время, отведенное экзаменуемому на ответ, не будет потрачено на расстановку чисел в определенной последовательности.

Формулировка подводящего вопроса и вариантов ответа

Подводящий вопрос всегда должен быть сформулирован в виде закрытого вопроса и заканчиваться вопросительным знаком. Недопустимо формулировать вопрос таким образом, чтобы подразумевалось продолжение фразы. Варианты ответа должны быть представлены в именительном падеже или инфинитиве (если подразумеваются действия). Это позволит избежать согласования вопроса с ответами в роде, числе и падеже.

Недопустимы следующие формулировки подводящего вопроса:

Пациенту показано...

Необходимо назначить/выполнить...

Вы назначите...

Назначьте исследования...

Сформулируйте диагноз...

Диагноз?

Выберите тактику ведения...

Ваши действия?

Вместо этого используйте следующие формулировки:

Что из перечисленного показано пациенту?

Что необходимо назначить?

Какие исследования необходимо назначить?

Каков наиболее вероятный диагноз?

Какова наиболее подходящая тактика ведения?

Рассмотрим пример.

Исследование больного следует начинать:

А. С УЗИ брюшной полости.

Б. Ирригографии.

В. Ректального пальцевого исследования.

Г. Фиброколоноскопии.

Подводящий вопрос в данном случае необходимо переформулировать.

С какого исследования следует начать?

Набор вариантов ответа приобретет следующий вид.

А. УЗИ брюшной полости.

Б. Ирригография.

В. Ректальное пальцевое исследование.

Г. Фиброколоноскопия.

Повторения слов в вариантах ответа

Повторение слов во всех вариантах ответа приводит к увеличению времени, затрачиваемого на прочтение задания, и никак не влияет на выбор ответа. Пример:

Что из перечисленного является наиболее подходящем в лечении?

А. Парацетамол и ингаляция ипратропия бромида.

Б. Парацетамол и ингаляция будесонида.

В. Парацетамол и ингаляция лазолвана.

Г. Парацетамол и ингаляция увлажненного кислорода.

Д. Парацетамол и ингаляция кислорода.

В данном случае необходимо переформулировать вопрос, вынеся повторяющееся слово в сам подводящий вопрос.

Ингаляция каким препаратом лучше всего подойдет данному пациенту?

Тогда варианты ответа приобретут следующий вид.

А. Ипратропия бромид.

Б. Будесонид.

В. Лазолван.

Г. Увлажненный кислород.

Д. Кислород.

Таким образом, вопрос становится короче, проще к восприятию, и снижается время ответа.

Дополнительные условия в вариантах ответа

В тестовых заданиях очень важно, чтобы вся информация, необходимая для выбора правильного ответа, была в сценарии. Недопустимо введение дополнительных условий в вариантах ответа. Пример:

Какова тактика ведения пациента?

А. Выжидательная тактика.

Б. Противовоспалительная терапия.

В. В случае сохранения лихорадки более 5 дней назначить антибиотики.

Г. Антибактериальная терапия.

В данном примере вариант ответа В содержит дополнительное условие в виде сохранения лихорадки. Если требуется проверить именно способность назначить лечение в данном случае, то необходимо составить вопрос таким образом, чтобы указание на сохраняющуюся лихорадку было уже заложено в сценарий.

Проверка тестовых заданий с одним правильным ответом

Составители (авторы) тестовых заданий зачастую допускают технические ошибки, особенно если необходимо разработать большой пул тестовых вопросов в короткий промежуток времени. Поэтому очень важен процесс рецензирования. В идеале он должен состоять из двух этапов:

1) контентное рецензирование экспертом по специальности, в ходе которого выявляются смысловые ошибки, несоответствие клиническим рекомендациям, общепринятым классификациям и порядкам оказания медицинской помощи;

2) структурное рецензирование методистом, в ходе которого устраняются технические ошибки или выявляются "проблемные" задания. Под "проблемными" подразумеваются задания, которые либо являются плохими дискриминаторами (различителями), либо слишком легкие и сложные вопросы, либо вопросы, ответы на которые неоднозначны (2 ответа, например, могут оказаться правильными).

Ниже предлагаем вам краткую инструкцию по проверке собственных вопросов или заданий, составленных другим автором. Хорошее тестовое задание обладает следующими признаками.

Задание соответствует матрице экзамена и проверяет применение знаний в клиническом контексте, а не фактические знания или эрудицию.

Сценарий должен быть представлен в виде клинической ситуации с описанием виртуального пациента (жалобы, анамнез, данные осмотра и т. д.).

Все числовые параметры имеют признанные единицы измерения (лабораторные показатели, витальные показатели, индексы, параметры измерений и т. д.).

Все необходимые для ответа данные уже есть в сценарии.

Отсутствие дополнительных условий в вариантах ответа.

На вопрос можно ответить, не видя вариантов ответа.

На вопрос нельзя ответить, прочитав только подводящий вопрос, не читая сценария.

Подводящий вопрос сформулирован в виде закрытого вопроса, заканчивающегося вопросительным знаком. Недопустимо продолжение фразы.

Отсутствие отрицания в подводящем вопросе.

Все варианты ответов однородны (все являются диагнозами, например).

Варианты ответов в именительном падеже или инфинитиве.

Отсутствие в вариантах ответов формулировок "все перечисленное" и "ничего из перечисленного".

Варианты ответов одинаковой длины и степени подробности.

Отсутствие пересечений в вариантах ответов (которые наводят на правильный ответ).

Числовые данные в вариантах ответов (при наличии) представлены в арифметическом порядке, интервалы не пересекаются.

Отсутствие логических и грамматических несоответствий и повторений слов (которые наводят на правильный ответ).

Отсутствие абсолютных или нечетких ответов ("никогда", "всегда", "хорошо", "плохо", "редко", "иногда", "часто", "возможно", "может быть").

Примеры хорошо сформулированных подводящих вопросов

Какой диагноз наиболее вероятен?

Какой возбудитель наиболее вероятно вызвал заболевание?

Какое состояние с наибольшей вероятностью имеется у пациента?

Какое осложнение с наибольшей вероятностью развилось у пациента?

Какое исследование необходимо выполнить пациенту в первую очередь?

Какое исследование поможет подтвердить диагноз?

Какое исследование является наиболее информативным в данном случае?

Что из перечисленного вызвало данное осложнение?

Какой фактор в наибольшей степени спровоцировал данное заболевание?

Какова тактика ведения пациента?

Какая схема лечения наиболее показана пациенту?

Какой препарат необходимо назначить в первую очередь?

Что необходимо выполнить в первую очередь?

Какова степень тяжести состояния-?

Литература/References

· Miller G.E. The assessment of clinical skills/competence/performance. Acad Med. 1990; 65: S63-7.

· Al-Eraky M., Marei H. A fresh look at Miller’s pyramid: assessment at the ‘Is’ and ‘Do’ levels. Med Educ. 2016; 50 (12): 1253-7. DOI: https://www.doi.org/10.1111/medu.13101. PMID: 27873421

· Van der Vleuten C.P.M. The assessment of professional competence: developments, research and practical implications. Advances in Health Sciences Education. 1996; 1 (1): 41-67. DOI: https://www.doi.org/10.1007/BF00596229

· Al-Rukban M.O. Guidelines for the construction of multiple choice questions tests. J Family Community Med. 2006; 13 (3): 125-33.

· Balaha M.H. Simplified guidelines for multiple-choice question writing to increase faculty compliance and ensure valid student results. Education in Medicine Journal. 2019; 11 (4): 1-17. https://doi.org/10.21315/eimj2019.11.4.1

· NBME® ITEM-WRITINGGUIDE. Constructing Written Test Questions for the Health Sciences. 2020. URL: www.nbme.org

Материалы данного сайта распространяются на условиях лицензии Creative Commons Attribution 4.0 International License («Атрибуция - Всемирная»)

ГЛАВНЫЙ РЕДАКТОР
ГЛАВНЫЙ РЕДАКТОР
Балкизов Залим Замирович
Генеральный секретарь Российского общества специалистов медицинского образования, директор Института подготовки специалистов медицинского образования ФГБОУ ДПО РМАНПО Минздрава России, профессор кафедры профессионального образования и образовательных технологий ФГАОУ ВО РНИМУ им. Н.И. Пирогова Минздрава России, генеральный директор компании ГЭОТАР-Мед, Советник Президента Национальной медицинской палаты, Москва, Российская Федерация

Журналы «ГЭОТАР-Медиа»