РУКОВОДСТВО AMEE № 87. РАЗРАБОТКА АНКЕТ ДЛЯ НАУЧНЫХ ИССЛЕДОВАНИЙ В ОБЛАСТИ МЕДИЦИНСКОГО ОБРАЗОВАНИЯ

Резюме

Перевод с английского под ред. А.Ю. Алексеевой

Это руководство AMEE посвящено разработке и созданию опросных листов для самостоятельного заполнения, обычно называемых анкетами. Анкеты широко используются при проведении научных исследований в области медицинского образования. К сожалению, методики разработки таких анкет различаются по качеству, в этой области отсутствуют согласованные строгие стандарты. Поэтому качество анкет, используемых при проведении научных исследований в области медицинского образования, существенно различается. Для решения этой проблемы в настоящем Руководстве AMEE представлена системная 7-этапная методика разработки высококачественных опросных листов с особым акцентом на создание шкал опроса. Эти 7 этапов охватывают не все аспекты разработки опросов и не являются единственным способом создания высококачественной анкеты. Напротив, они сочетают в себе несколько методик и позволяют создать на их основе согласованный процесс для разработчиков анкет всех уровней. Систематическое выполнение каждого из этих шагов повысит вероятность того, что создатели опроса будут измерять именно то, что они хотят измерить.

* Это руководство было опубликовано в журнале "Medical Teacher": Artino Jr. A.R., La Rochelle J.S., Dezee K.J., Gehlbach H. Developing questionnaires for educational research: AMEE Guide No. 87. 2014; 36: 6, 463-74. DOI: 10.3109/0142159X.2014.889814

Artino Jr. A.R., La Rochelle J.S., Dezee K.J., Gehlbach H. Developing questionnaires for educational research: AMEE Guide No. 87. 2014; 36: 6, 463-74. DOI: 10.3109/0142159X.2014.889814.

ВВЕДЕНИЕ

Использование анкет при проведении научных исследований в области медицинского образования

В области медицинского образования опросы используются повсеместно. Примерами могут служить широко распространенная оценка медицинских курсов и медицинской практики студентами, а также опросы удовлетворенности пациентов и исследования самооценки студентов. Кроме того, инструменты опроса широко используются при проведении научных исследований в области медицинского образования. В нашем недавнем обзоре оригинальных исследовательских статей, опубликованных в журнале "Medical Teacher" в 2011 и 2012 гг., мы обнаружили, что 37 (24%) статей включали в себя опросы как часть исследования. Точно так же опросы обычно используются при проведении исследований в области высшего медицинского образования. По данным за тот же двухлетний период (2011-2012 гг.), опросы были включены в 75% исследовательских статей, опубликованных в журнале "Journal of Graduate Medical Education" ("Журнал высшего медицинского образования").

Практические аспекты

■ Анкетирование широко применяется при проведении научных исследований в области медицинского образования, но методики разработки таких анкет различаются по качеству, в этой области отсутствуют согласованные строгие стандарты.

■ В этом руководстве AMEE представлен систематический 7-этапный процесс создания высококачественных опросных шкал, пригодных для исследовательских целей и оценки программ.

■ Процесс объединяет в единое целое несколько методик, используемых разработчиками опросов.

■ Процесс разработки опроса, описанный в настоящем руководстве, включает следующие 7 этапов: 1) проведение обзора литературы; 2) проведение интервью и/или фокус-групп; 3) синтез данных, полученных при проведении обзора литературы и интервью/фокус-групп; 4) разработка вопросов; 5) сбор обратной связи по вопросам с помощью экспертной проверки; 6) проведение когнитивных интервью, чтобы убедиться в правильном понимании вопросов респондентами; 7) проведение пробного анкетирования ("пилотирование").

■ Этот 7-этапный процесс разработки опросов отличается от ранее описанных процессов тем, что он сочетает в себе данные, полученные от других экспертов в данной области, а также от потенциальных участников. Кроме того, в этом процессе основное внимание уделяется задаче обеспечения точности собираемых данных путем тщательной разработки вопросов.

Несмотря на широкое распространение опросов в области медицинского образования, в медицинской учебной литературе содержится ограниченное количество рекомендаций относительно наилучшего способа разработки опроса (Gehlbach et al., 2010). Поэтому зачастую опросы разрабатываются без соблюдения строгих методологий или "надлежащей практики" в этой области. В итоге надежность оценок, полученных в результате опросов, часто оказывается недостаточной, равно как и обоснованность предлагаемой интерпретации и использования этих оценок. Другими словами, когда опросы плохо разработаны, из-за различных типов ошибок измерения они могут не уловить суть того, что разработчик опроса пытается измерить. Например, плохая формулировка вопросов, их запутанная структура и неадекватные варианты ответов - все это может повлиять на надежность и достоверность собранных данных, что крайне затрудняет получение полезных выводов (Sullivan, 2011). Имея в виду указанные проблемы, в этом руководстве AMEE мы поставили цель описать систематический процесс разработки, который будет способствовать созданию надежных и валидных инструментов опроса, используемых в медицинском образовании и исследованиях. Таким образом, мы надеемся предоставить медицинским педагогам практическое руководство по повышению качества опросов, которые они разрабатывают для оценки и исследовательских целей.

СИСТЕМАТИЧЕСКИЙ 7-ЭТАПНЫЙ ПРОЦЕСС РАЗРАБОТКИ ШКАЛЫ ОПРОСА

Термин "опрос" достаточно широкий и может включать в себя вопросы, используемые в телефонном интервью, набор вопросов, используемых в фокус-группе, а также вопросы для самостоятельного ответа пациента (Dillman et al., 2009). Хотя методики, описанные в этом руководстве AMEE, могут быть использованы для повышения качества всего вышеперечисленного, мы сосредоточиваемся главным образом на опросных листах для самостоятельного заполнения, которые часто называют анкетами. Для большинства анкет главная цель состоит в том, чтобы разработать набор вопросов, которые каждый респондент будет интерпретировать одинаково, на которые каждый респондент будет отвечать точно, при которых респондент будет иметь желание и мотивацию отвечать. 7 этапов, представленных в табл. 1 и описанных ниже, не охватывают всех аспектов разработки опроса и не являются единственным способом разработки высококачественной анкеты. Скорее, эти этапы объединяют и сочетают в себе множество методов разработки опросов, существующих в социальных науках, и они могут направлять разработчиков на пути их создания. Систематическое выполнение каждого этапа позволит оптимизировать качество анкет в области медицинского образования и повысить шансы на сбор высококачественных данных.

Таблица 1. 7-этапный процесс разработки измерительных шкал опроса для исследователей вопросов медицинского образования

Адаптировано с разрешения Липпинкотта Уильямса (Lippincott Williams) и Уилкинса/Уолтерса (Wilkins/Wolters). Kluwer Health: Gehlbach H, Artino A.R. Jr., Durning S. AM last page: survey development guidance for medical education researchers. Acad Med. 2010; 85 (5): 925.

Анкеты хорошо подходят для сбора данных об абстрактных идеях или концепциях, которые иначе трудно поддаются количественной оценке, таких как мнения, установки и убеждения. Кроме того, анкеты могут быть полезны для сбора информации о поведении, которое не может наблюдаться непосредственно (например, учеба дома), при условии, что респонденты готовы и способны сообщать об этом поведении. Однако прежде чем создавать анкету, необходимо сначала понять, является ли опрос лучшим методом для решения поставленной в исследовании задачи или изучаемого конструкта. Конструкт - это модель, идея или теория, которую исследователь пытается оценить. В медицинском образовании многие конструкты, представляющие интерес, нельзя наблюдать непосредственно: удовлетворенность студентов новым учебным планом, оценка пациентами своего физического дискомфорта и т.д. Поскольку документирование этих явлений требует измерения восприятия людей, анкеты часто являются наиболее прагматичным подходом к оценке конструктов.

В медицинском образовании многие конструкты хорошо подходят для оценки с помощью анкет. Однако, поскольку психологические, не поддающиеся наблюдению конструкты, такие как мотивация преподавателя, уверенность врача и удовлетворенность обучающихся, не имеют общепринятой системы показателей, их трудно измерить с помощью одного вопроса анкеты. Другими словами, существует практически всеобщее согласие в отношении единиц и метода измерения некоторых конструктов, таких как вес или расстояние, и поэтому одного измерения может быть достаточно. Однако для более точного измерения не поддающихся наблюдению психологических конструктов часто требуются шкалы. Измерительные шкалы представляют собой группы сходных вопросов в анкете, предназначенной для оценки одного и того же базового конструкта (DeVeUis, 2003). Хотя шкалы сложнее разрабатывать и для этого требуется больше времени, они дают исследователям много преимуществ. В частности, шкалы позволяют более полно, точно и последовательно оценить лежащий в их основе конструкт (McIver, Carmines, 1981). Таким образом, шкалы широко используются во многих областях, включая медицинское образование, психологию и политологию. В качестве примера рассмотрим исследователя вопросов медицинского образования, интересующегося оценкой удовлетворенности студентов-медиков. Один из методов состоит в том, чтобы просто задать один вопрос об удовлетворенности (например, насколько вы были удовлетворены учебой на медицинском факультете?). Однако более эффективный метод состоит в том, чтобы задать ряд вопросов, призванных охватить различные аспекты конструкта удовлетворенности (например, насколько вы были удовлетворены средствами обучения, насколько эффективны были ваши преподаватели и насколько простым был процесс планирования?). Используя этот подход, можно рассчитать средний балл по всем вопросам определенной шкалы и использовать его в исследовании.

Из-за преимуществ оценки этих типов психологических конструктов с помощью шкал процесс разработки опроса, к которому мы сейчас обратимся, будет сосредоточен, в частности, на разработке шкал.

ЭТАП I. ПРОВЕДЕНИЕ ОБЗОРА ЛИТЕРАТУРЫ

I этапом разработки анкеты является обзор литературы. Обзор литературы имеет две основные цели: (1) четко определить конструкт и (2) определить, существуют ли уже методы измерения конструкта (или связанных с ним конструктов). Обзор литературы помогает согласовать определение конструкта с соответствующей теорией и исследованиями в этой области и в то же время помогает исследователю определить, какие измерительные шкалы или вопросы можно использовать или адаптировать для текущей цели (Gehlbach et aL, 2010).

Формулировка четкого определения конструкта является необходимым первым шагом в любом исследовании валидности (Cook, Beckman, 2006). Хорошее определение позволит прояснить, как конструкт позиционируется в существующей литературе, как он соотносится с другими конструктами и чем отличается от связанных конструктов (Gehlbach, Brinkworth, 2011).

Хорошо сформулированное определение также помогает определить уровень абстракции, на котором измеряется данный конструкт (так называемый размер зерна, как это определено в работе Gehlbach, Brinkworth, 2011). Например, для изучения степени уверенности обучающихся медиков в том, что они овладели необходимыми клиническими навыками, можно было бы разработать шкалы для оценки их уверенности в овладении навыками аускультации сердца (на мелкозернистом конце спектра), проведения физикального обследования (на среднезернистом конце спектра) или овладении клиническими навыками, необходимыми для преподаваемой медицинской дисциплины (на крупнозернистом конце спектра).

Хотя многие исследователи вопросов медицинского образования предпочитают разрабатывать опросы самостоятельно, возможно, более эффективный способ состоит в том, чтобы адаптировать существующий опросник (особенно если авторы существующего опросника собрали доказательства валидности в предыдущей работе), чем начинать с нуля. В этом случае обычно достаточно обратиться к авторам с просьбой адаптировать их анкету. Однако важно отметить, что термин "ранее валидированный опросник" является неправильным. Валидность оценок, полученных на основе определенного опросника или шкалы опроса, зависит, помимо прочего, от целевой группы населения, местной специфики и предполагаемого использования оценок шкалы. Таким образом, разработчики опросов собирают доказательства надежности и валидности своих измерительных шкал в определенном контексте, с определенной выборкой и для определенной цели.

Как описано в Стандартах образовательного и психологического тестирования (Standards for Educational and Psychological Testing), под валидностью подразумевается степень, с которой предполагаемое использование оценки поддерживается фактическими данными и теорией (AERA, APA & NCME, 1999). Процесс валидации является наиболее фундаментальным фактором при разработке и оценке инструмента измерения, и этот процесс включает в себя накопление доказательств во времени, в разных условиях и выборках для построения научно обоснованной аргументации валидности. Таким образом, установление валидности - это непрерывный процесс сбора доказательств (Kane, 2006). Кроме того, важно признать, что надежность и валидность - это свойства не опроса как инструмента, а оценки опроса и их интерпретации (AERA, APA & NCME, 1999). Например, опрос об удовлетворенности обучающихся может быть уместен для оценки аспектов благополучия студентов, но такой опрос не будет подходить для отбора лучших студентов-медиков. В этом примере опросный лист не претерпел изменений, изменилась только интерпретация оценок (Cook, Beckman, 2006).

Существует много веских причин для использования или небольшой адаптации существующего опросника. В этом случае можно провести сравнение с врачом, который должен решить, какое лечение наиболее эффективно. Преобладающее большинство практикующих врачей не проводят собственных сравнительных исследований, чтобы определить лучшие методы лечения для своих пациентов. Они, скорее, полагаются на опубликованные исследования, так как очевидно, что было бы нецелесообразно проводить такие исследования в отношении каждого случая заболевания. Точно так же медицинские преподаватели не могут разрабатывать собственные анкеты для каждого поставленного в исследовании вопроса или образовательного вмешательства. Как и клинические испытания, разработка качественного опросника требует времени, знаний, навыков и достаточного количества ресурсов. Таким образом, существующий хорошо разработанный опросник часто может позволить медицинским преподавателям направить свои ограниченные ресурсы на решение других проблем.

Если продолжать аналогию с клиническими исследованиями, можно привести следующий пример: когда практикующие врачи рассматривают отчет об исследовании, который имеет отношение к их клиническому вопросу, они должны решить, можно ли его применить к их пациенту. Как правило, при этом необходимо определить, являются ли выявленные в исследовании взаимосвязи причинно-следственными (внутренняя валидность) и применимы ли результаты к популяции пациентов данного врача (внешняя валидность). Аналогичным образом, анкеты, обнаруженные в ходе поиска литературы, должны быть критически проанализированы на предмет валидности, а затем на предмет возможности применения к целевой аудитории преподавателя. Если разработчики опросов найдут шкалы, которые точно соответствуют их конструкту, специфике и предполагаемому использованию, они могут использовать такие шкалы, внеся в них лишь незначительные изменения. В некоторых случаях сами вопросы могут быть плохо сформулированы, но их содержание может быть полезным для составления новых вопросов (Gehlbach, Brinkworth, 2011). Делать такие выводы будет тем легче, чем больше разработчик опроса знает о конструкте (посредством обзора литературы) и передовой практике составления вопросов (как описано в IV этапе).

ЭТАП II. ПРОВЕДЕНИЕ ИНТЕРВЬЮ И/ИЛИ ФОКУС-ГРУППЫ

После того как обзор литературы показал, что необходимо разработать новый опросник, и помог определить конструкт, следующим шагом является выяснение того, соответствует ли концептуализация конструкта тому, как потенциальные респонденты его представляют (Gehlbach, Brinkworth, 2011). Другими словами, включают ли и исключают ли респонденты те же признаки конструкта, которые описаны в литературе? Какой язык используют респонденты при описании конструкта? Чтобы ответить на эти вопросы и убедиться, что конструкт определен с разных точек зрения, исследователи обычно собирают данные непосредственно от людей, которые очень схожи с изучаемой популяцией.

Для иллюстрации этого этапа на помощь приходит другая аналогия из клинической практики. Многие практикующие врачи сталкивались с тем, что много времени тратится на разработку подходящей с медицинской точки зрения схемы лечения, но она оказывается неприемлемой для пациентов (например, слишком дорогая). В этом случае врач и пациент должны разработать новый план, приемлемый для обоих. Если бы точка зрения пациента была рассмотрена раньше, первоначальный план, вероятно, был бы более эффективным. Многие врачи также испытывали трудности при лечении пациента, и только после того, как коллега переосмыслил проблему, был выработан более эффективный метод лечения. Конструкт не исключение. Исследователь, разрабатывающий опросник, как и врач, лечащий пациента, много думал над определением конструкта. Однако исследователь неизбежно привносит в это определение свои взгляды и предубеждения, а язык, используемый в литературе, может быть техническим и трудным для понимания. Таким образом, необходимо учитывать другие точки зрения. Самое главное, как целевая популяция (пациент из предыдущего примера) концептуализирует и понимает конструкт? Как и в случае с пациентом, другие точки зрения иногда имеют решающее значение для успеха проекта. Например, изучая литературу об удовлетворенности студентов медицинскими учебными заведениями, исследователь может не найти упоминаний об учебной практике предоставления студентам видео- или аудиозаписей лекций (так как эта практика является довольно новой). Однако в беседе со студентами исследователь может обнаружить, что современные студенты привыкли к подобной практике и учитывают ее при формировании своего мнения о преподавании в медицинском учебном заведении.

Чтобы выполнить II этап, разработчику опроса потребуется информация от потенциальных респондентов. Интервью и/или фокус-группы дают возможность получить эту информацию. Независимо от выбранного подхода, этот этап должен быть направлен на достижение двух основных целей. Во-первых, исследователям нужно услышать, как участники говорят о конструкте своими словами, без подсказок или с незначительными подсказками со стороны исследователя. После сбора произвольной информации от участников разработчики опроса могут затем задать более целенаправленные вопросы, чтобы оценить, согласны ли респонденты с тем, как конструкт был охарактеризован в литературе. Эту процедуру следует повторять до тех пор, пока не будет достигнут порог насыщения, когда исследователь больше не получает новой информации о том, как потенциальные респонденты концептуализируют конструкт. Конечный результат интервью и/или фокусгруппы должен состоять в подробном описании того, как потенциальные респонденты концептуализируют и понимают конструкт. Затем эти данные будут использоваться на III и IV этапах.

ЭТАП III. СИНТЕЗ ДАННЫХ, ПОЛУЧЕННЫХ ПРИ ПРОВЕДЕНИИ ОБЗОРА ЛИТЕРАТУРЫ И ИНТЕРВЬЮ/ФОКУС-ГРУПП

На этом этапе определение конструкта уже сформулировано медицинским преподавателем, разрабатывающим анкету, проводящим обзор литературы и составляющим портрет целевой аудитории. На III этапе осуществляется согласование этих определений. Поскольку определение конструкта задает направление всех последующих этапов (например, разработку вопросов), разработчик проекта должен приложить все усилия, чтобы выполнить этот этап должным образом.

Одним из эффективных способов выполнения III этапа является разработка всеобъемлющего списка показателей для конструкта путем объединения результатов обзора литературы и интервью/фокус-групп (Gehlbach, Brinkworth, 2011). Когда в этих источниках данных фигурируют аналогичные списки, процесс не представляет сложности. Когда эти данные концептуально схожи, но литература и потенциальные респонденты описывают конструкт с использованием разной терминологии, имеет смысл использовать лексику потенциальных респондентов. Например, при оценке уверенности преподавателя (иногда называемой самоэффективностью преподавателя), вероятно, более уместно спрашивать преподавателей об их "уверенности в апробации новых методов обучения", чем об их "эффективности в экспериментировании с новыми педагогическими методами" (Gehlbach et al, 2010). Наконец, если какой-либо показатель присутствует в одном источнике и отсутствует в другом, большинство разработчиков анкет захотят включить такой вопрос, по крайней мере на начальном этапе. На последующих этапах разработчики будут иметь возможность определить с помощью экспертных оценок (этап IV) и когнитивных интервью (этап VI), по-прежнему ли предложенные вопросы подходят для исследования конструкта. Каким бы ни был метод, используемый для консолидации данных на I и II этапах, окончательное определение и перечень показателей должны быть всеобъемлющими, отражающими как литературу, так и мнения целевой аудитории.

Стоит отметить, что ученые могут иметь веские основания остановиться на определении конструкта, отличном от того, что встречается в литературе. Однако, когда это происходит, следует понимать, как именно и почему определение конструкта отличается от имеющихся. Например, отличается ли восприятие целевой аудитории от восприятия, описанного в предыдущих работах? Применяется ли новая теория образования? Какова бы ни была причина, это обоснование будет необходимо для публикации опросника. Наличие четкого определения конструкта с объяснением того, чем он отличается от других версий конструкта, поможет коллегам и исследователям решить, как лучше использовать опросник как в сравнении с предыдущими исследованиями, так и с развитием новых областей научных исследований.

ЭТАП IV. РАЗРАБОТКА ВОПРОСОВ

Цель этого этапа состоит в том, чтобы составить анкетные вопросы, верно отражающие изучаемый конструкт на языке, который респонденты могут легко понять. Одним из важных аспектов разработки анкеты является количество вопросов, необходимых для адекватной оценки конструкта. Простого ответа здесь нет. Идеальное количество вопросов зависит от нескольких факторов, включая сложность конструкта и уровень, на котором предполагается его оценить (т.е. размер зерна). В целом хорошей практикой является разработка большего количества вопросов, чем в конечном итоге потребуется в окончательной шкале (например, разработка 15 потенциальных вопросов с надеждой в конечном итоге создать шкалу из восьми вопросов), так как некоторые вопросы, скорее всего, будут удалены или пересмотрены позже в процессе разработки анкеты (Gehlbach, Brinkworth, 2011). В конечном счете решение о количестве вопросов - это дело профессионального суждения, но для большинства узко определенных конструктов шкалы, содержащие от 6 до 10 вопросов, обычно достаточны, чтобы верно уловить суть рассматриваемого явления.

Следующая задача состоит в том, чтобы сформулировать ясные, недвусмысленные вопросы, используя лексику целевой популяции. Хотя некоторые аспекты составления вопросов остаются формой искусства, этот процесс должен основываться на все более и более прочном научном фундаменте и накопленном передовом опыте. Например, использование вопросов, а не утверждений, избегание негативных и предвзятых формулировок, приведение сути вопроса в соответствие с ответами и использование ответов, подчеркивающих измеряемый конструкт, вместо ответов на вопросы о согласии/несогласии с утверждением в целом (Artino et al, 2011) - все это передовые методы, подтвержденные документальными доказательствами. Хотя некоторые исследователи вопросов медицинского образования могут рассматривать эти принципы как проявление здравого смысла, опыт говорит нам, что передовые методы зачастую не соблюдаются.

Обзор всех рекомендаций относительно того, как лучше формулировать вопросы, строить список ответов и создавать визуальный дизайн отдельных элементов опроса и анкет в целом, выходит за рамки данного руководства AMEE. Однако, как отмечалось выше, существует множество замечательных работ по этой теме (например, DeViUis, 2003; DiUman et at., 2009; Fowler, 2009). Чтобы помочь читателям понять некоторые из наиболее важных и часто игнорируемых передовых методов, в табл. 2 мы привели некоторые ошибки, допускаемые при составлении вопросов, и предложили соответствующие решения.

Таблица 2. Передовые методы составления вопросов на основе научных данных, полученных в ходе исследования методов разработки анкет

Адаптировано с разрешения Липпинкотта Уильямса (Lippincott Williams) и Уилкинса/Уолтерса (Wilkins/Wolters). Kluwer Health: Artino A.R. Jr., Gehlbach H., Durning S.J. AM last page: Avoiding five common pitfalls of survey design. Acad Med. 2011; 86 (10): 1327.

Другой важной частью процесса разработки опросника является выбор вариантов ответов, которые будут использоваться для каждого пункта. Закрытые вопросы могут иметь неупорядоченные (номинальные) варианты ответов, которые не имеют естественного порядка, или упорядоченные (порядковые) варианты ответов. Кроме того, в анкете может быть вопрос на ранжирование(например, "оцените следующие элементы, где 1 - лучший и 6 - худший") или задание на ранжирование, где необходимо выбрать ответ по шкале Лайкерта. Хотя обзор всех доступных вариантов ответов выходит за рамки настоящего руководства AMEE, разработчикам опросников рекомендуется адаптировать эти варианты к конструктам, которые они пытаются оценить (и ознакомиться с одной из многих замечательных работ по этой теме, например DiUman et aL, 2009; McCoach et al, 2013). Чтобы помочь читателям понять некоторые часто игнорируемые передовые методы, в табл. 2 и на рисунке мы привели несколько распространенных ошибок, которые разработчики совершают при составлении и оформлении своих вариантов ответов. Шкалы ответов Лайкерта в настоящее время являются наиболее популярным способом сбора ответов при анкетировании, в значительной степени благодаря простоте использования и адаптируемости для измерения множества различных конструктов (McCoach et al, 2013). В табл. 3 приводится несколько примеров 5- и 7-балльных шкал ответов, которые могут использоваться при разработке инструментов опроса на основе шкалы Лайкерта.

Передовые методы создания визуального дизайна на основе научных данных, полученных в ходе исследования методов разработки анкет

Адаптировано с разрешения Липпинкотта Уильямса (Lippincott Williams) и Уилкинса/Уолтерса (Wilkins/Wolters) Kluwer Health: Artino A.R., Gehlbach H. M last page: Avoiding four visualdesign pitfalls in survey development. Academic Medicine. 2012; 87: 1452.

Таблица 3. Примеры различных вариантов ответа по типу шкалы Лайкерта

После того как разработчики опроса закончат составление пунктов анкеты и выберут якоря ответов, появятся различные источники доказательств, которые могут применяться для оценки валидности опросника и его предполагаемого использования. Эти источники валидности были описаны в Стандартах образовательного и психологического тестирования (Standards for Educational and Psychological Testing) как доказательства, основанные на следующем: 1) содержание; 2) процесс предоставления ответов; 3) внутренняя структура; 4) отношения с другими переменными и 5) последствия (AERA, APA & NCME, 1999). Следующие 3 этапа процесса разработки опроса хорошо вписываются в указанную классификацию и описаны ниже.

ЭТАП V. ПРОВЕДЕНИЕ ЭКСПЕРТНОЙ ВАЛИДАЦИИ

После определения конструкта и составления предположительных вопросов важным этапом в разработке нового опросника является сбор доказательств валидности на основе содержания опроса (так называемая содержательная валидность) (AERA, APA & NCME, 1999). Этот этап включает в себя сбор данных от специалистов по информационному наполнению и имеет целью установить, что отдельные элементы опроса соответствуют измеряемому конструкту и что ключевые элементы или показатели не были пропущены (Polit, Beck, 2004; Waltz et al., 2005). Привлечение экспертов для систематического анализа содержания опроса может существенно повысить общее качество и репрезентативность элементов шкалы (Polit, Beck, 2006).

Описание этапа по установлению содержательной валидности для нового инструмента опроса можно найти в различных литературных источниках (например, McKenzie et al., 1999; Rubio et al., 2003). Ниже мы суммируем несколько наиболее важных составляющих этого этапа. Во-первых, прежде чем набирать группу экспертов для оценки содержания нового опросника, следует разработать конкретные критерии для определения квалификации эксперта. Эти критерии часто основываются на опыте или знании измеряемого конструкта, но на практике они также зависят от готовности и доступности отдельных специалистов, которых привлекают к участию в разработке опроса (McKenzie et al, 1999). Одним из эффективных методов поиска экспертов является подбор авторов из библиографических списков статей, просматриваемых в ходе поиска литературы. В литературе нет единого мнения относительно количества экспертов, которое следует использовать для проведения содержательной валидации. Однако количество привлеченных экспертов будет оказывать влияние на многие количественные методы, используемые для анализа полученных от экспертов данных. Рубио (Rubio et at., 2003)рекомендует использовать 6-10 экспертов, признавая при этом, что большее число экспертов (до 20) позволит сформировать более четкий консенсус относительно оцениваемого конструкта, а также качества и релевантности предлагаемых пунктов шкалы.

В целом ключевыми областями для экспертной оценки в рамках процесса валидации являются репрезентативность, ясность, релевантность и распределение. Репрезентативность определяется как полнота охвата конструкта вопросами (в целом), ясность - как четкость формулировок вопросов, а релевантность - как степень, в которой каждый вопрос действительно относится к конкретным аспектам конструкта. Распределение ответов на вопрос не всегда измеряется во время экспертной проверки, так как оно отражает более тонкий аспект: насколько "трудно" было бы респонденту выбрать высокий балл по конкретному вопросу. Другими словами, среднему студенту-медику может быть очень трудно ответить положительно на вопрос об уверенности в себе: "Насколько вы уверены, что можете получить 100% на экзамене по анатомии?", но этому же студенту может быть легче дать твердый положительный ответ на вопрос: "Насколько вы уверены, что можете сдать экзамен по анатомии?". В общем, разработчики анкет должны стремиться к тому, чтобы иметь в своем распоряжении целый ряд вопросов различной сложности (Tourangeau et at., 2000).

После определения состава группы экспертов можно приступить к созданию формы содержательной валидации, которая определяет конструкт и дает экспертам возможность предоставить обратную связь по отдельной вышеупомянутой теме или их совокупности. Приоритеты каждого разработчика опроса в отношении содержательной валидации могут отличаться, поэтому разработчикам рекомендуется адаптировать формы содержательной валидации таким образом, чтобы они отражали эти приоритеты.

Существует множество методов анализа количественных данных, собранных в форме экспертной валидации, но вне зависимости от используемого метода критерий приемлемости того или иного вопроса или шкалы следует определить заранее (Beck, Gable, 2001). Общими параметрами, используемыми для принятия решений о включении и исключении отдельных вопросов, являются коэффициент содержательной валидности, индекс содержательной валидности и индекс факториальной валидности. Подробнее о том, как рассчитать и интерпретировать эти показатели, см. в работах McKenzie et al. (1999) и Rubio et al. (2003). (Пример формы содержательной валидации см. в работе Gehlbach, Brinkworth, 2011.)

Наряду со сбором количественных данных, разработчики опросников должны предоставить экспертам возможность давать комментарии в свободной форме. Этот подход может быть особенно эффективен для изучения того, какие показатели или аспекты конструкта недостаточно хорошо представлены существующими вопросами. Данные, собранные на основании комментариев в свободной форме и последующего качественного анализа, часто позволяют получить информацию, которую не дают количественные данные, и могут привести к серьезным дополнениям к вопросам и шкалам (или исключениям из них) (McKenzie et al, 1999).

Существует множество способов анализа содержательной валидности нового опроса с помощью экспертной валидации. Оптимальный подход должен быть направлен на различные области, в которых исследователи испытывают наибольшие опасения по поводу шкалы (релевантности, ясности и т.д.) для каждого отдельного элемента и для каждого набора элементов или каждой шкалы. Количественные данные в сочетании с качественными данными экспертов призваны повысить содержательную валидность нового опросника или измерительной шкалы и в конечном счете эффективность инструмента опроса в целом.

ЭТАП VI. ПРОВЕДЕНИЕ КОГНИТИВНЫХ ИНТЕРВЬЮ

После того как эксперты помогли уточнить элементы шкалы, важно собрать доказательства валидности процесса предоставления ответов, чтобы оценить, как потенциальные участники интерпретируют ваши элементы и пункты ответов (AERA, APA & NCME 1999). Одним из способов сбора таких доказательств является процесс, известный под названием "когнитивное интервью" или "когнитивное предварительное тестирование" (Willis, 2005). Подобно тому как эксперты используются для определения содержательной валидности нового опроса, не менее важно определить, как потенциальные респонденты интерпретируют вопросы, и соответствует ли их интерпретация тому, что имеет в виду разработчик анкеты (Willis, 2005; Karabenick et al., 2007). Результаты когнитивных интервью могут быть полезны для выявления ошибок, которые респонденты допускают в своей интерпретации вопроса или вариантов ответа (Napoles-Springer et al., 2006; Karabenick et al., 2007). Как качественный метод, анализ опирается не на статистические проверки цифровых данных, а на кодирование и интерпретацию письменных заметок, сделанных в ходе проведения интервью. Таким образом, размеры выборки, используемой для когнитивного интервьюирования, обычно невелики и могут включать всего 10-30 участников (Willis, Artino, 2013). Для небольших исследовательских проектов в области медицинского образования может быть достаточно всего 5-6 участников, если разработчик опроса способен выявить потенциальную предвзятость в очень небольших выборках (Willis, Artino, 2013).

В когнитивном интервью используются методы психологии и традиционно предполагается, что, отвечая на вопросы, респонденты проходят через ряд когнитивных процессов. Эти этапы включают в себя понимание сути вопроса и выбор ответа, извлечение соответствующей информации из долговременной памяти, вынесение суждения, основанного на понимании вопроса и извлеченной из памяти информации, и, наконец, выбор ответа (Tourangeau et al., 2000). Поскольку респонденты могут испытывать трудности на любом этапе, когнитивное интервью следует разрабатывать и планировать так, чтобы все потенциальные проблемы были решены. Важным I этапом в процессе когнитивного интервью является создание критериев кодирования, отражающих предполагаемый смысл каждого вопроса (Karabenick et al., 2007), которые затем могут использоваться для интерпретации ответов, собранных в ходе когнитивного интервью.

Двумя основными методами проведения когнитивного интервью являются техника "думай вслух" и вербальное зондирование. Техника "думай вслух" требует от респондентов вербализации каждой мысли, которая приходит им в голову при ответе на каждый вопрос. В этом случае интервьюер просто поддерживает его действия, поощряя респондента продолжать говорить и записывать сказанное для последующего анализа (Willis, Artino, 2013). Этот метод может дать ценную информацию, но он, как правило, является неестественным и трудным для большинства респондентов, и это может привести к тому, что создатель опроса должен будет отбраковывать множество данных открытых ответов.

Дополнительная процедура - вербальное зондирование, - является более активной формой сбора данных, когда интервьюер задает серию зондирующих вопросов, предназначенных для получения конкретной информации (Willis, Artino, 2013) (список часто используемых вербальных зондов см. в табл. 4). Вербальное зондирование классически делится на параллельное и ретроспективное. При параллельном зондировании интервьюер задает респонденту конкретные вопросы о его мыслительных процессах, в то время как респондент отвечает на каждый вопрос. Параллельное зондирование, хотя и нарушает общий ход интервью, имеет то преимущество, что позволяет участникам отвечать на вопросы, пока их мысли свежи. Ретроспективное зондирование, с другой стороны, происходит после того, как участник завершил весь опрос (или часть опроса), и, как правило, в меньшей степени нарушает мыслительный процесс респондента, чем параллельное зондирование. Недостатком ретроспективного зондирования является риск смещения воспоминаний и ретроспективных эффектов (Drennan, 2003). Модификация двух методов вербального зондирования определяется как немедленное ретроспективное зондирование, которое позволяет интервьюеру найти естественные контрольные точки в опросе. Немедленное ретроспективное зондирование дает возможность интервьюеру провести исследование, не прерываясь между каждым пунктом (Watt et al., 2008). Этот подход имеет потенциальное преимущество, заключающееся в уменьшении предвзятости воспоминаний и ретроспективных эффектов при одновременном ограничении числа прерываний респондента со стороны интервьюера и снижении искусственности процесса. На практике во многих когнитивных интервью на самом деле используется комбинация методов "думай вслух" и вербального зондирования с целью более эффективного выявления потенциальных ошибок.

Таблица 4. Примеры широко используемых вербальных зондов

Адаптировано с разрешения журнала Journal of Graduate Medical Education: Willis G.B., Artino A.R. Jr. What do our respondents think we’re asking? Using cognitive interviewing to improve medical education surveys. J Grad Med Educ. 2013; 5: 353-6.

После завершения когнитивного интервью проводится анализ полученных качественных данных. Существует несколько методов анализа. Одним из методов количественного анализа результатов когнитивного интервью является кодирование. Этот метод состоит в том, что для распространенных ошибок респондентов (например, респондент запрашивает разъяснения) устанавливаются заранее определенные коды, и по каждому вопросу количество ошибок каждого типа заносится в таблицу (Napoles-Springer et al., 2006). Кроме того, коды могут ранжироваться в соответствии с заранее определенной степенью серьезности ошибки. Хотя количественные результаты этого анализа часто легко интерпретируются, при использовании этого метода можно пропустить ошибки, которые трудно предсказать. Кроме того, он не позволяет полностью объяснить, почему возникает ошибка (Napoles-Springer et aL., 2006). К тому же к когнитивному интервью также может применяться качественный подход посредством анализа взаимодействия. Как правило, анализ взаимодействия пытается описать и объяснить способы, которыми люди интерпретируют ответы и взаимодействуют во время разговора, и этот метод может применяться в ходе когнитивного интервью для определения смысла ответов (Napoles-Springer et al., 2006). Исследования показали, что сочетание кодирования и анализа взаимодействия может быть достаточно эффективным и предоставляет больше информации о "когнитивной валидности" нового опросника (Napoles-Springer et al., 2006).

Важность сходного понимания респондентами каждого вопроса неразрывно связана с общей надежностью оценок любого нового опросника. Кроме того, необходимость понимания респондентами каждого вопроса так, как он был задуман создателем опроса, всецело обусловливает валидность опроса и выводов, которые могут быть сделаны на основании полученных данных. В совокупности эти два аспекта критически важны для создания качественного опросника, и каждый аспект может быть решен с помощью хорошо продуманного когнитивного интервью. В конечном счете независимо от методов, используемых для проведения когнитивных интервью и анализа данных, собранная информация должна использоваться для изменения и улучшения анкеты в целом и отдельных элементов опроса.

ЭТАП VII. ПРОВЕДЕНИЕ ПРОБНОГО АНКЕТИРОВАНИЯ ("ПИЛОТИРОВАНИЕ")

Несмотря на все усилия, предпринятые исследователями вопросов медицинского образования в ходе вышеупомянутого процесса разработки опроса, формулировка некоторых элементов анкеты все еще может быть некорректной (GehLbach, Brinkworth, 2011). Таким образом, следующим этапом являются пилотное тестирование опросника и продолжение сбора доказательств валидности. В основе двух наиболее распространенных подходов лежат его внутренняя структура и связи с другими переменными (AERA, APA & NCME, 1999). Во время пилотного тестирования участники целевой группы проходят опрос в заранее определенном формате (например, в онлайн- или бумажном формате). Затем данные, полученные в ходе пилотного теста, анализируются для оценки диапазона и вариантности вопросов, надежности всей шкалы и корреляций вопросов и суммарных баллов. На этом этапе разработчики опросов должны также изучить описательную статистику (например, средние значения и стандартные отклонения) и гистограммы, которые демонстрируют распределение ответов по вопросам. Этот анализ может помочь в выявлении элементов, которые могут функционировать не так, как предполагал разработчик.

Для определения внутренней структуры опросника и оценки степени, в которой элементы в рамках конкретной шкалы измеряют единый базовый конструкт (т.е. одномерность шкалы), разработчикам опросов следует рассмотреть возможность использования передовых статистических методов, таких как факторный анализ. Факторный анализ - это статистическая процедура, предназначенная для оценки "количества различных конструктов, необходимых для учета схемы корреляций в наборе показателей" (Fabriger, Wegener, 2012, с. 3). Чтобы оценить размерность шкалы опроса, которая была целенаправленно построена для оценки одного конструкта (например, с использованием процессов, описанных в этом исследовании), мы рекомендуем использовать методы подтверждающего факторного анализа. В то же время другие ученые утверждают, что при оценке новых шкал целесообразнее применять исследовательский факторный анализ (McCoach et al., 2013). Независимо от конкретного применяемого анализа исследователи должны знать, что методы факторного анализа зачастую плохо изучены и плохо реализуются. К счастью, литература изобилует многими полезными руководствами (см., например, Pett et al., 2003; McCoach et aL., 2013).

Проведение анализа надежности - еще один важный шаг на этапе пилотного тестирования. Наиболее распространенный способ оценки надежности шкалы - вычисление коэффициента "альфа Кронбаха". Альфа Кронбаха - это мера внутренней согласованности оценок элементов (т.е. степень, в которой оценки отдельных элементов на шкале коррелируют друг с другом). Это функция корреляции между пунктами и общим количеством пунктов по определенной шкале. Важно отметить, что альфа Кронбаха не является хорошим показателем одномерности шкалы (измерение единого концепта), как часто предполагается (Schmitt, 1996). Таким образом, в большинстве случаев разработчики исследования должны сначала провести факторный анализ, чтобы оценить одномерность шкалы, а затем приступить к анализу надежности, чтобы оценить внутреннюю согласованность элементов шкалы (Schmitt, 1996).

Поскольку альфа Кронбаха чувствительна к длине шкалы, при прочих равных условиях более длинная шкала в большинстве случаев будет характеризоваться более высоким значением коэффициента альфа Кронбаха. Безусловно, длину шкалы и связанное с этим повышение надежности внутренней согласованности следует соизмерять с чрезмерной нагрузкой респондентов и сопутствующими ошибками в ответах, которые могут возникнуть, когда опросники становятся слишком длинными и респонденты устают. Наконец, крайне важно признать, что надежность - необходимое, но недостаточное условие валидности (AERA, APA & NCME, 1999). Другими словами, для того, чтобы результаты опроса считались достоверными, они должны быть в первую очередь надежными. Однако надежные оценки не обязательно являются достоверными для данной цели.

После оценки одномерности и внутренней согласованности шкалы разработчики опросов часто формируют суммарные баллы для каждой шкалы. В зависимости от рассматриваемого вопроса исследования суммарные баллы могут затем использоваться в качестве независимых или зависимых переменных. При попытке оценить трудноизмеримые образовательные конструкты, такие как мотивация, уверенность и удовлетворенность, обычно имеет смысл создать суммарный балл для каждой шкалы опроса, чем использовать отдельные элементы опроса в качестве переменных (Sullivan, Artino, 2013). Суммарный балл - это просто средняя оценка (взвешенная или невзвешенная) всех элементов в пределах определенной шкалы. Использование средних оценок имеет несколько явных преимуществ по сравнению с суммированием элементов в рамках определенной шкалы или подшкалы. Во-первых, средние оценки обычно выводятся с использованием той же шкалы ответов, что и для отдельных элементов. Этот подход способствует прямой интерпретации средних оценок с точки зрения ответов. Во-вторых, использование средних оценок позволяет понять, насколько велики (или малы) измеряемые различия на самом деле при сравнении отдельных лиц или групп. Как предупреждал Колливер и соавт. (Colliver et al., 2010), "суммы рейтинговых оценок отражают как рейтинговые оценки, так и количество элементов, что увеличивает различия между оценками и делает различия более важными, чем они есть" (стр. 591).

После создания суммарных баллов для каждой шкалы опроса полученные переменные могут быть изучены для определения их отношения к другим переменным, которые были собраны. Цель этого шага - определить, согласуются ли взаимосвязи переменных с теорией и предыдущими исследованиями. Так, например, можно было бы ожидать, что суммарные баллы по шкале, предназначенной для оценки уверенности обучающихся в своих навыках наложения швов, будут положительно коррелировать с количеством успешных выполненных процедур наложения швов (так как практика укрепляет уверенность) и отрицательно коррелировать с тревожностью, связанной с процедурой (так как более уверенные в себе обучающиеся также демонстрируют меньший уровень тревожности). Таким образом, разработчики опросов оценивают валидность созданных ими шкал с точки зрения их взаимосвязи с другими переменными (AERA, APA & NCME, 1999). Стоит отметить, что в приведенном выше примере разработчик опроса оценивает корреляции между вновь разработанными оценками шкалы и как объективной мерой (количество процедур), так и субъективной мерой (баллы по шкале тревожности). Оба эти подхода целесообразны для оценки взаимосвязи новой шкалы с другими переменными.

Глоссарий

■ Закрытый вопрос - вопрос анкеты с конечным числом категорий ответов, из которых респондент может выбрать вариант.

■ Когнитивное интервьюирование (или когнитивное предварительное тестирование) - основанный на фактических данных качественный метод, специально предназначенный для исследования того, удовлетворяет ли вопрос анкеты его предполагаемой цели.

■ Параллельное зондирование - метод вербального зондирования, при котором интервьюер задает зондирующий вопрос сразу же после того, как респондент прочитал вслух каждый вопрос анкеты и ответил на него.

■ Конструкт - гипотетическое понятие или характеристика (нечто "сконструированное"), для измерения которых предназначен опрос или тест. Исторически сложилось так, что термин "конструкт" был зарезервирован для обозначения характеристик, которые не могут наблюдаться непосредственно. Однако в последнее время этот термин получил более широкое определение.

■ Содержательная валидность - доказательство, полученное в результате анализа взаимосвязи между содержанием инструмента опроса и конструктом, который он призван измерять.

■ Факторный анализ - набор статистических процедур, предназначенных для оценки количества различных конструктов, необходимых для учета схемы корреляций в наборе показателей.

■ Открытый вопрос - вопрос анкеты, который требует от респондентов ответа в свободной форме (например, число, список или более длинный, развернутый ответ).

■ Надежность - степень, в которой оценки, полученные с помощью конкретной процедуры измерения или инструмента (например, опроса), являются последовательными и воспроизводимыми. Надежность - необходимое, но недостаточное условие валидности.

■ Якоря ответов - пункты, указанные в ряду вариантов ответа (например, абсолютно неважно, не очень важно, в меру важно, довольно важно и чрезвычайно важно).

■ Валидность процесса предоставления ответа - доказательство валидности, полученное в результате анализа того, как респонденты интерпретируют значение конкретных пунктов измерительной шкалы.

■ Ретроспективное зондирование - метод вербального зондирования, при котором интервьюер задает зондирующие вопросы после того, как респондент завершил весь опрос (или часть опроса).

■ Шкала - два или более элементов, предназначенных для измерения конструкта.

■ Интервьюирование по методу "думай вслух" - когнитивный метод интервьюирования, при котором респондентов просят активно вербализовать свои мысли, когда они пытаются ответить на оцениваемые вопросы анкеты.

■ Валидность - степень, в которой предлагаемые интерпретации оценок инструмента подтверждаются данными и теорией.

■ Аргументация валидности - процесс накопления доказательств с целью обеспечения надежной научной основы для предлагаемого использования оценок инструмента.

■ Вербальное зондирование - когнитивный метод интервьюирования, при котором интервьюер задает серию зондирующих вопросов, специально предназначенных для получения подробной информации, выходящей за рамки обычно предоставляемой респондентами.

■ Заявление о наличии/отсутствии заинтересованности. Некоторые авторы являются военнослужащими. Параграф 105 раздела 17 Свода федеральных законов США предусматривает, что "защита авторских прав в соответствии с данным разделом недоступна для работ сотрудников правительства Соединенных Штатов". Параграф 101 раздела 17 Свода федеральных законов США определяет работу сотрудника правительства Соединенных Штатов как работу, подготовленную военнослужащим или служащим правительства Соединенных Штатов в рамках своих служебных обязанностей.

ЗАКЛЮЧЕНИЕ

В этом руководстве AMEE представлен систематический 7-этапный процесс разработки шкал опроса. Следует отметить, что многие важные темы, связанные с организацией и проведением опросов, выходят за рамки нашей статьи, посвященной разработке шкал, и поэтому не обсуждались в данном руководстве. Эти темы включают, помимо прочего, одобрение анкет для научных исследователей с этической точки зрения, формат опроса (бумажный или электронный), методы определения выборки, получение высоких показателей ответов, предоставление стимулов и управление данными. Эти и многие другие темы подробно рассматриваются в других источниках (например, DiUman et al, 2009). Мы также признаем, что представленная здесь методология не является единственным способом разработки и создания высококачественного опросника. Однако мы надеемся, что, читая это руководство, исследователи вопросов медицинского образования придут к пониманию важности следования системному, основанному на доказательствах подходу к разработке анкет. Это не только повышает качество опросников, используемых в медицинском образовании, но и потенциально может положительно повлиять на общее качество исследований в области медицинского образования, авторы значительной части которых используют анкетирование.

Взгляды, выраженные в этой статье, принадлежат авторам и не обязательно отражают официальную позицию Военно-медицинского университета, Военно-морского флота США, Вооруженных сил США, Военно-воздушных сил США или Министерства обороны.

Фрагменты настоящего руководства AMEE были ранее опубликованы в журнале "Journal of Graduate Medical Education and Academic Medicine" и используются с прямого разрешения издателей (Gehlbach et al., 2010; Artino et al., 2011; Artino, Gehlbach, 2012; Rickards et al., 2012; Magee et al., 2013; Willis, Artino, 2013).

References/Литература

- American Educational Research Association (AERA), American Psychological Association (APA) & National Council on Measurement in Education (NCME). Standards for education and psychological testing. Washington, DC: American Educational Research Association, 1999.

- Artino A.R., Gehlbach H., Durning S.J. AM last page: Avoiding five common pitfalls of survey design. Acad Med. 2011; 86: 1327.

- Artino A.R., Gehlbach H. AM last page: avoiding four visual design pitfalls in survey development. Acad Med. 2012; 87: 1452.

- Beck C.T., Gable R.K. Ensuring content validity: An illustration of the process. J Nurs Meas. 2001; 9: 201-15.

- Christian L.M., Parsons N.L., Dillman D.A. Designing scalar questions for web surveys. Sociol Method Res. 2009; 37: 393-425.

- Colliver J.A., Conlee M.J., Verhulst S.J., Dorsey J.K. Reports of the decline of empathy during medical education are greatly exaggerated: a reexamination of the research. Acad Med. 2010; 85: 588-93.

- Cook D.A., Beckman T.J. Current concepts in validity and reliability for psychometric instruments: theory and application. Am J Med. 2006; 119: 166.e7-16.

- DeVellis R.F. Scale development: theory and applications. 2nd ed. Newbury Park, CA: Sage, 2003.

- Dillman D., Smyth J., Christian L. Internet, mail, and mixed-mode surveys: the tailored design method. 3rd ed. Hoboken, NJ: Wiley, 2009.

- Drennan J. Cognitive interviewing: verbal data in the design and pretesting of questionnaires. J Adv Nurs. 2003; 42 (1): 57-63.

- Fabrigar L.R., Wegener D.T. Exploratory factor analysis. New York: Oxford University Press, 2012.

- Fowler FJ. Survey research methods. 4th ed. Thousand Oaks, CA: Sage, 2009.

- Gehlbach H., Artino A.R., Durning S. AM last page: survey development guidance for medical education researchers. Acad Med. 2010; 85: 925.

- Gehlbach H., Brinkworth M.E. Measure twice, cut down error: a process for enhancing the validity of survey scales. Rev Gen Psychol. 2011; 15: 380-7.

- Kane M.T. Validation in educational measurement. 4th ed. Westport, CT: American Council on Education/Praeger, 2006.

- Karabenick S.A., Woolley M.E., Friedel J.M., Ammon B.V., Blazevski J., Bonney C.R., et al. Cognitive processing of self-report items in educational research: do they think what we mean? Educ Psychol. 2007; 42 (3): 139-51.

- Krosnick J.A. Survey research. Annu Rev Psychol. 1999; 50: 537-67.

- Magee C., Byars L., Rickards G., Artino A.R. Tracing the steps of survey design: a graduate medical education research example. J Grad Med Educ. 2013; 5 (1): 1-5.

- McCoach D.B., Gable R.K., Madura J.P. Instrument development in the affective domain: school and corporate applications. 3rd ed. New York: Springer, 2013.

- McIver J.P., Carmines E.G. Unidimensional scaling. Beverly Hills, CA: Sage, 1981.

- McKenzie J.F., Wood M.L., Kotecki J.E., Clark J.K., Brey R.A. Establishing content validity: Using qualitative and quantitative steps. Am J Health Behav. 1999; 23 (4): 311-8.

- Napoles-Springer A.M., Olsson-Santoyo J., O’Brien H., Stewart A.L. Using cognitive interviews to develop surveys in diverse populations. Med Care. 2006; 44 (11): s21-30.

- Pett M.A., Lackey N.R., Sullivan J.J. Making sense of factor analysis: the use of factor analysis for instrument development in health care research. Thousand Oaks, CA: Sage, 2003.

- Polit D.F., Beck C.T. Nursing research: principles and methods. 7th ed. Philadelphia: Lippincott Williams and Wilkins, 2004.

- Polit D.F., Beck C.T. The content validity index: are you sure you know what’s being reported? Critique and recommendations. Res Nurs Health. 2006; 29: 489-97.

- Rickards G., Magee C., Artino A.R. You can’t fix by analysis what you’ve spoiled by design: developing survey instruments and collecting validity evidence. J Grad Med Educ. 2012; 4 (4): 407-10.

- Rubio D.M., Berg-Weger M., Tebb S.S., Lee E.S., Rauch S. Objectifying content validity: Conducting a content validity study in social work research. Soc Work Res. 2003; 27 (2): 94-104.

- Schmitt N. Uses and abuses of coefficient alpha. Psychol Assess. 1996; 8: 350-3.

- Schwarz N. Self-reports: How the questions shape the answers. Am Psychol. 1999; 54: 93-105.

- Sullivan G. A primer on the validity of assessment instruments. J Grad Med Educ. 2011; 3 (2): 119-20.

- Sullivan G.M., Artino A.R. Analyzing and interpreting data from Likerttype scales. J Grad Med Educ. 2013; 5 (4): 541-2.

- Tourangeau R., Rips L.J., Rasinski K.A. The psychology of survey response. New York: Cambridge University Press, 2000.

- Waltz C.F., Strickland O.L., Lenz E.R. Measurement in nursing and health research. 3rd ed. New York: Springer, 2005.

- Watt T., Rasmussen A.K., Groenvold M., Bjorner J.B., Watt S.H., Bonnema S.J., et al. Improving a newly developed patient-reported outcome for thyroid patients, using cognitive interviewing. Qual Life Res. 2008; 17: 1009-17.

- Weng L.J. Impact of the number of response categories and anchor labels on coefficient alpha and test-retest reliability. Educ Psychol Meas. 2004; 64: 956-72.

- Willis G.B., Artino A.R. What do our respondents think we’re asking? Using cognitive interviewing to improve medical education surveys. J Grad Med Educ. 2013; 5 (3): 353-6.

- Willis G.B. Cognitive interviewing: a tool for improving questionnaire design. Thousand Oaks, CA: Sage, 2005.

Материалы данного сайта распространяются на условиях лицензии Creative Commons Attribution 4.0 International License («Атрибуция - Всемирная»)

ГЛАВНЫЙ РЕДАКТОР
ГЛАВНЫЙ РЕДАКТОР
Балкизов Залим Замирович
Генеральный секретарь Российского общества специалистов медицинского образования, директор Института подготовки специалистов медицинского образования ФГБОУ ДПО РМАНПО Минздрава России, профессор кафедры профессионального образования и образовательных технологий ФГАОУ ВО РНИМУ им. Н.И. Пирогова Минздрава России, генеральный директор компании ГЭОТАР-Мед, Советник Президента Национальной медицинской палаты, Москва, Российская Федерация

Журналы «ГЭОТАР-Медиа»