СТАТЬИ, ПОСВЯЩЕННЫЕ ИССЛЕДОВАНИЯМ ДИАГНОСТИЧЕСКИХ И СКРИНИНГОВЫХ ТЕСТОВ. Глава 7 из книги "Основы доказательной медицины" (пер. с англ. под ред. И.Н. Денисова, К.И. Сайткулова. - 3-е изд. - М.: ГЭОТАР-Медиа, 2009)

Мед. образование и проф. развитие. 2012. № 1. С. 67-77.

7.1. Пример с десятью подсудимыми

Если вы незнакомы с методами оценки диагностических исследований, а математические объяснения (например, "давайте примем это значение за x-") у вас не вызывают энтузиазма, вам может помочь следующий пример. Десять подсудимых, обвиняемых в убийстве, ожидают решения судьи. Из них только трое действительно совершили преступление, семь человек невиновны. Судья рассматривает каждое дело и признает шесть человек виновными в преступлении. Из них двое являются истинными убийцами, а четверо осуждены неправильно. Один убийца остается на свободе.

Эту информацию можно представить в виде таблицы (табл. 7.1). Обратите внимание, что истина (т.е. совершал человек убийство или нет) отражена в верхнем горизонтальном ряду таблицы, а вердикт судьи (который может отражать, а может и не отражать истину) - в левом вертикальном столбце.

Вы должны видеть, что эти значения, если они типичны для данного судьи, отражают ряд его характеристик.

1. Судья правильно выявляет двух из каждых трех истинных убийц.

2. Он правильно оправдывает трех из каждых семи невинных людей.

3. Если этот судья счел человека виновным, вероятность того, что это действительно убийца, равна одному их трех.

4. Если этот судья счел человека невиновным, вероятность того, что он действительно невиновен, равна трем из четырех.

5. В пяти случаях из десяти судья выносит правильное решение.

Эти пять характеристик составляют соответственно чувствительность, специфичность, прогностическую ценность положительного результата теста, прогностическую ценность отрицательного результата теста и индекс точности судьи. Остальная часть этой главы посвящена этим пяти характеристикам применительно к диагностическим (или скрининговым) тестам в сравнении с "истинным" диагнозом, или "золотым стандартом". В разделе 7.4 описывается шестая, более сложная (но очень полезная) характеристика диагностического исследования - отношение правдоподобия. (После прочтения главы обратитесь к данному ее разделу. К тому времени вы должны определить, что отношение правдоподобия по ложительного вердикта судьи в приведенном примере равно 1,17, а отрицательного вердикта - 0,78. Если не можете, не волнуйтесь - о том, что такое отношение правдоподобия не имеют понятия даже многие выдающиеся врачи).

7.2. Сравнение диагностического теста с "золотым стандартом"

Один рабочий рассказал мне, как он, почувствовав недавно жажду, обратился к своему врачу для исследования на диабет, которым страдают члены его семьи. Медсестра попросила его собрать образец мочи и опустила в него специальную полоску. Полоска окрасилась в зеленый цвет, что, по-видимому, означало, отсутствие в моче сахара (глюкозы). Медсестра сказала, что это свидетельствует об отсутствии диабета.

Мне было трудно объяснить рабочему, что результат исследования вовсе не свидетельствует об отсутствии диабета, как и судебное решение "виновен" не говорит о том, что человек обязательно является убийцей. Диабет, согласно определению ВОЗ, это уровень глюкозы в крови выше 7 ммоль/л натощак или выше 11,1 ммоль/л через 2 ч после теста на толерантность к глюкозе (очень неприятный тест, в ходе которого исследуемого просят выпить тошнотворно сладкий напиток со 100 г глюкозы и через 2 ч проводят исследование крови). Эти показатели должны быть зафиксированы два раза, если у человека нет симптомов, и только 1 раз, если у него есть типичные симптомы диабета (жажда, выделение боль шого количества мочи и т.д.).

Эти строгие критерии можно назвать "золотым стандартом" диагноза "диабет". Другими словами, если пациент отвечает критериям ВОЗ, он может считаться диабетиком, а при отсутствии критериев - нет (тем не менее эксперты ставят под сомнение такие категоричные заявления, как это; действительно, с момента первого издания этой книги значения в "золотом стандарте" диагностики диабета по уровню глюкозы крови изменились) (Kuzuya и соавт., 2002). Однако нельзя сказать то же самое в отношении опускания полосок в случай но взятый образец мочи. С одной стороны, у вас действительно может быть диабет, но почечный порог при этом высок; это означает, что почки сохраняют глюкозу гораздо лучше, чем у большинства людей, и уровень глюкозы в крови должен быть чрез вычайно высоким, чтобы она появилась в моче. Другой вариант - вы можете быть абсолютно здоровым человеком, но с низким почечным порогом; в этом случае глюкоза попадает в мочу, даже если в крови ее концентрация не повышена. Многие люди, страдающие диабетом, знают, что при этом заболевании часто исследование глюкозы в моче дает отрицательные результаты.

Тем не менее использование тест-полосок для скрининга на диабет имеет много преимуществ по сравнению с тестом на толерантность к глюкозе. Это дешевый, удобный, легкий в исполнении и интерпретации тест, дающий моментальный результат. В реальной жизни люди, как наш рабочий, могут отказаться от проведения неприятного теста на толерантность к глюкозе. Даже если он согласен, врач может решить, что симптомы не требуют проведения такого дорогостоящего и сложного исследования. Надеюсь, вы видите, что, хотя по исследованию мочи нельзя абсолютно точно поставить диагноз диабета, этот тест имеет определенные практические преимущества по сравнению с "золотым стандартом". По этой причине мы его и используем.

Чтобы объективно оценить, насколько информативно исследование глюкозы в моче для диагностики диабета, нам нужно отобрать группу людей (например, 100 человек) и провести у каждого из них оба теста: исследование мочи (скрининговый тест) и тест на толерантность к глюкозе ("золотой стандарт"). Затем у каждого человека мы сможем увидеть, совпадают ли результаты скринингового теста с "золотым стандартом". Такое исследование известно как оценка достоверности диагностического теста. Мы можем выразить результаты этого исследования в виде таблицы (табл. 7.2) и подсчитать различные характеристики теста (табл. 7.3) так, как мы это делали в отношении судьи в самом начале главы.

Если показатели различных характеристик теста (такие как чувствительность и специфичность) находятся в пределах разумного, мы можем говорить, что тест достоверный (см. ниже вопрос 7). Достоверность исследования глюкозы в моче для диагностики диабета изучалась Андерсон (Andersson) и соавт. (1993), чьи данные я использовала в примере (табл. 7.4).

На самом деле в оригинальное исследование были включены 3268 человек, из которых 67 либо отказались от исследования, либо по каким-то при чинам это исследование не было им правильно проведено. Ради простоты я проигнорировала эти тонкости и выразила результаты в виде знаменателя (общее количество тестированных) - 1000 человек. На самом деле эти данные получены в ходе эпидемиологического исследования, направленного на определение рас пространенности диабета в популяции; оценка достоверности диагностического определения глюкозы в моче была побоч ным вопросом, параллельно решаемым в основном исследовании. Если бы оценка теста была основной целью исследования, группа включала бы гораздо больше боль ных диабетом (см. вопрос 2 в разделе 7.3). Если вы обратитесь к оригинальной ста тье, то увидите, что "золотым стандартом" диагностики истинного диабета был не пероральный тест на толерантность к глю козе, а гораздо менее стандартная серия наблюдений. Тем не менее этот пример соответствует своим задачам, поскольку он дает нам некоторые цифры, которые можно включить в уравнения, показанные в табл. 7.3. Важные характеристики исследования мочи на диабет можно посчитать следующим образом.

-Чувствительность = a/a+c = 6/27 = = 22,2%.

-Специфичность = d/b+d = 966/973 = = 99,3%.

-Прогностическая ценность положительного результата теста = a/a+b = = 6/13 = 46,2%.

-Прогностическая ценность отрицательного результата теста = d/c+d = = 966/973 = 97,8%.

-Индекс точности = (a+d)/(a+b+c+d) = = 972/1000 = 97,2%.

-Отношение правдоподобия положительного результата теста = чувствительность/(l - специфичность) = = 22,2/0,7 = 32.

-Отношение правдоподобия отрицательного результата теста = (1 - чувствительность)/специфичность = 77,8/99,3 = = 0,78.

-Посттестовая вероятность отрицательного результата теста равна (1 - прогностическая ценность отрицательного результата теста).

Теперь вы видите, почему я не разделяла уверенности рабочего в том, что у него нет диабета. Чувствительность положительно го теста на глюкозу в моче всего 22%; это

означает, что тест не выявляет почти 4/5 ис тинных диабетиков. При наличии класси ческих симптомов и семейного анамнеза, изначальные шансы (претестовая вероят ность) этого состояния у рабочего доволь но высока и снижается только до 4/5 от этого значения (отношение правдоподобия отрицательного результата теста 0,78, см. раздел 7.4) после единичного отрицатель ного результата исследования глюкозы в моче. Учитывая симптомы, этому чело веку необходимо пройти дополнительное исследование на диабет (Friderichsen и со авт., 1997). Обратите внимание, что, как показывают определения в табл. 7.3, если бы тест был положительным, тогда рабоче му нужно было беспокоиться - хотя тест не очень чувствительный (т.е. он не очень по лезен для выявления людей с диабетом), он довольно специфичен (т.е. он полезен для исключения людей без заболевания).

Студенты часто путают различ ные параметры диагностического теста: чувствительность/специфичность и прог ностическая ценность положительного/отрицательного результатов. Чувствитель ность и специфичность характеризуют тест в целом, а прогностическая цен ность показывает, что результаты данного теста означают для конкретного пациента. Поэтому чувствительность и специ фичность обычно больше используются эпидемиологами и специалистами в об ласти общественного здоровья, чья еже дневная работа включает принятие решений о популяциях.

Скрининговая маммография (рентге нография молочной железы) может иметь чувствительность 80% и специфичность 90% для выявления рака молочной железы. Это означает, что тест выявляет 80% больных раком и исключает 90% женщин, не имеющих рака молочной железы.

Но представьте себя врачом или медсестрой, к которой приходит больная за результатами маммографии. Вопрос, ко торый она вам задаст в случае положитель ного результата теста: "Какова вероятность, что у меня рак?", в случае отрицательно го результата: "Какова вероятность того, что теперь я могу забыть о возможности этого заболевания?". Многие пациенты (и, к сожалению, многие врачи) полагают, что отрицательная прогностическая цен ность теста равна 100%, т.е., если результат "нормальный", они думают, что вероят ность заболевания равна нулю. Признания женщин, публикуемые в женских журналах ("Мне сказали, что у меня рак, но затем тес ты доказали, что врачи были неправы") - это примеры женщин, полагающих, что положительная прогностическая ценность теста равна 100%.

7.3. Десять вопросов, которые нужно задать о статье, оценивающей диагностический или скрининговый тест

При составлении этих вопросов я основывалась на трех основных источниках: "Руководство к чтению медицинской литературы" (Jaeschke и соавт., 1994) и книга этих же авторов (Sackett и соавт., 1991), более свежая статья в журнале Американской медицинской ассоциации (Reid и со авт., 1995) и рекомендации Дэвида Манта (David Mant) для оценки диагностических тестов (Mant, 1995). Большинство проверочных листов в этой книге содержат не более чем общие практические советы для неопытных экспертов-новичков: если вы хотите ознакомиться с исчерпывающим и точным набором критериев (объемом в 234 страницы) - проверочным листом QADAS [Quality in Diagnostic and Screening tests (Качество диагностических и скри нинговых исследований)], рекомендую обратиться к недавно опубликованному обзору Программе оценке технологий в здравоохранении (Великобритания) (Whiting и соавт., 1994).

Вопрос 1. Подходит ли этот тест для моей практики?

Это то, что Д. Сэккет и его коллеги называют полезностью теста (1991). Даже если тест на 100% достоверный, точный и надежный, поможет ли он мне? Позволит ли он определить излечимое заболевание? Если да, предпочту ли я его тесту, который привык назначать? Могу ли я (мои паци енты, налогоплательщики, финансирующие медицинскую помощь) позволить это исследование? Согласятся ли мои пациен ты его пройти? Изменит ли он вероятность возможного диагноза до такой степени, чтобы изменить план лечения? Если отве ты на эти вопросы отрицательные, можно отклонить статью, не читая ее дальше аннотации или введения.

Вопрос 2. Сравнивался ли тест с "золотым стандартом"?

Сначала нужно задать вопрос, сравни вался ли диагностический тест в данном исследовании с чем-либо вообще. Некоторые авторы пишут статьи (в прошлом эти статьи даже публиковались), в которых не делалось ничего, кроме проведения нового теста на нескольких десятках пациентов. Такие упражнения могут давать различные результаты, но, конечно же, они не являются подтверждением того, что "высокие" результаты указывают на наличие выявля емого заболевания, а "низкие" результаты указывают на его отсутствие.

Далее следует проверить, заслуживает ли тест, использованный в исследовании, термина "золотой стандарт". Хороший способ оценки "золотого стандарта" - задать вопросы о полезности теста, пере численные выше.

Для многих заболеваний абсолютного "золотого стандарта" диагностического теста, который определенно говорил бы о наличии или отсутствии заболевания, не существует. Неудивительно, что именно для этих состояний ученые наиболее активно ищут новые методы диагностики. В этом случае авторы часто разрабатывают комбинацию критериев, с которой и сравнивают новый оцениваемый тест. Один специфический момент, который нужно проверить, - не используется ли оцени ваемый тест (или его разновидность) как способствующий определению "золотого стандарта".

Вопрос 3. Включало ли это исследование адекватный спектр пациентов?

Если вы оценивали новое исследование на холестерин у 100 здоровых студентов медицинской школы мужского пола, вы не сможете сказать, каковы будут результаты у женщин, детей, пожилых лиц, лиц с заболеваниями, связанными с повышенным уровнем холестерина, и даже у тех, кто никогда не бывал в медицинской школе. Ко нечно, исследователи не бывают настолько наивны, чтобы для оценки теста формировать такую смещенную группу. Однако в одной статье приводятся данные, что только в 27% опубликованных исследо ваний четко определен состав пациентов с точки зрения их возраста, пола, симптомов и/или тяжести заболевания и специфических критериев отбора (Mant, 1995).

Определение состава участников исследования и спектра заболевания имеет большое значение, если результаты теста могут быть перенесены в другие условия. Диагностический тест может быть более чувствительным у женщин по сравнению с мужчинами или у молодых по сравнению с пожилыми. По этим же причинам, как отмечают Д. Сэккет и соавт., группа, на которой проверяется тест, должна включать лиц с легкой и тяжелой формой заболевания, леченых и нелеченых, а так же лиц с другими похожими состояниями (1991).

В то время как чувствительность и специфичность теста постоянны вне зависимости от распространенности состояния, положительная или отрицательная прогностическая ценность во многом зависит от распространенности. Поэтому врачи общей практики скептически (часто правильно) относятся к полезности тестов, разработанных исключительно в условиях специализированной медицинской помощи, при которой тяжесть заболевания обычно выше (см. раздел 4.2). Поэтому же хороший диагностический тест (обычно используемый, когда у пациента имеются некоторые симптомы, предполагающие определенное заболевание) не обязатель но является хорошим скрининговым тестом (обычно используется у людей без симптомов, исходящих из популяции с более низ кой распространенностью заболевания).

Вопрос 4. Избегалась ли систематическая ошибка вследствие неполного проведения "золотого стандарта"?

Это легко проверить. Вопрос означает: "Каждый ли участник, получавший новый диагностический тест, также получал "золотой стандарт", и наоборот?". Потенциальная систематическая ошибка в работах, в которых "золотой стандарт" проводился только у лиц с уже положительными результатами оцениваемого теста, очевидна. Кроме того, в такого рода смещениях есть и другие более тонкие аспекты, выходящие за рамки этой книги. Подробное обсужде ние этих вопросов можно найти в работе Райда (Reid) и соавт. (1995).

Вопрос 5. Избегалась ли систематичес кая ошибка вследствие ожидания?

Систематическая ошибка вследствие ожидания происходит, когда патологили другой специалист, интерпретирующий диагностический материал, подсозна тельно находится под влиянием знания характеристик данного случая. В качестве примера можно привести знание врачом о наличии у пациента боли в груди при интерпретации электрокардиограммы. В контексте оценки диагностических исследований в сравнении с "золотым стандартом" вопрос означает: "Знали ли лица, интерпретировавшие один из тестов, каковы результаты другого теста у данного пациента?" Как я объясняла в разделе 4.5, все оценки должны быть "слепыми", т.е. человек, интерпретирующий результаты теста, не должен получать никаких намеков, какой результат может ожидаться в данном конкретном случае.

Вопрос 6. Воспроизводим ли тест как у одного, так и между разными наблюдателями?

В определенном проценте случаев наблюдатель, проводящий одно и то же исследование два раза в разное время у пациента, характеристики которого не изменились, получает различные результаты. Это свойство в той или иной степени характерно для всех тестов. Однако тест с воспроизводимостью 99% находится в другой категории по сравнению с тестом, воспроизводимость которого равна 50%. Плохой воспроизводимости диагностического исследования может способствовать ряд факторов: техническое разрешение оборудования, вариабельность наблюда телей, проводящих тесты (например, при сравнении цветов с референтной цветовой шкалой), ошибки вычисления и т.д.

Обратитесь к разделу 4.5, чтобы вспомнить о проблеме согласия между различными наблюдателями. В интерпретации одного и того же результата два человека согласятся только в определенном проценте случаев, обычно выражаемом как показатель κ Каппа. Если же диагностическое исследование дает результаты в виде чисел (например, уровень холестерина в крови в ммоль/л), вопросов согласия между наблюдателями не возникает. Когда же тест включает интерпретацию рентгенограмм (пример с маммографией в разделе 4.5) или вопросы о привычках, связанных с употреблением спиртных напитков (Bush и соавт., 1987), важно подтвердить, что воспроизводимость между различными наблюдателями находится на приемлемом уровне.

Вопрос 7. Каковы характеристики теста, вытекающие из этого исследования?

Даже при соблюдении всех вышеуказанных стандартов диагностический тест может быть бесполезным, если он сам по себе недостоверен, т.е. его чувствительность, специфичность и другие ключевые характеристики слишком низкие. Именно к такой ситуации относится случай с определением глюкозы в моче для выявления диабета (см. раздел 7.2). В конце концов, если тест дает ложноотрицательные результаты примерно в 80%, он скорее вводит врача в заблуждение, нежели помогает подтвердить диагноз тогда, когда заболевание действительно имеется.

Для достоверности скринингового теста не существует абсолютно четких значений, поскольку приемлемые значения характеристик теста зависят от состояния, по поводу которого проводится скрининг. Мало кто будет "придираться" к тесту на цветовую слепоту с чувствительностью 95% и специфичностью 80%, но от это го заболевания никто не умирал. Скрининговый тест Гютри (Guthrie) на врожденный гипотиреоидизм, проводимый в Великобритании всем детям вскоре после рождения, имеет чувствительность 99%, но прогностическая ценность его положительного результата всего 6% (другими словами, тест выявляет практически всех детей с этим состоянием за счет высокого пока зателя ложноположительных результатов) (Verkerk, 1993). Выявить каждого ребенка с этим излечимым состоянием, который в противном случае может стать психически неполноценным, гораздо важнее, чем избавить сотни родителей от относительно небольшого стресса, связанного с повторным анализом крови у их ребенка.

Вопрос 8. Указаны ли доверительные интервалы для чувствительности, специфичности и других характеристик теста?

В разделе 5.5 объясняется, что доверительные интервалы, которые могут быть посчитаны практически для любого количественного результата, отражают возможный диапазон результатов, в пределах которого лежит истинное значение. Посмотрите снова на пример с судьей в разделе 7.1. Если бы он отнес еще одного убийцу к невиновным, чувствительность его решения упала бы с 67 до 33%, а прогностическая ценность положительного результата вердикта - с 33 до 20%. Эта огромная (и неприемлемая) зависимость от одного решения судьи, конечно, связана с тем, что мы оценивали решения судьи только по 10 случаям. Доверительные интервалы для характеристик этого судьи настолько широкие, что моя компьютерная программа отказывается их посчитать! Запомните: чем больше размер выборки, тем более узкий доверительный интервал. Поэтому на доверительные интервалы особенно важно обращать внимание, если размер выборки в статье небольшой. Формулу для расчета доверительных интервалов характеристик диагностического теста можно найти в прекрасной книге М. Гарднера и Д. Альтмана "Статистика с уверенностью" (Gardner, 2000).

Вопрос 9. Выведен ли на основании результатов диапазон нормальных значений?

Если тест дает не дихотомические результаты, т.е. если он дает количественные значения, а не результат "да или нет", кто то должен сказать, начиная с какого значения результат следует считать аномальным. Многие из нас проводили измерение собственного артериального давления. Мы хотим знать, нормальное ли у нас давление, а врач называет нам определенное значение, например 142/92. Если в качестве ориентира высокого артериального давления выбрано значение 140/90, мы окажемся в "аномальной" категории, хотя риск возникновения у нас проблем практически не отличается от такового у человека с давлением 138/88. Многие врачи в таких случаях вполне разумно говорят своим пациентам следующее: "Давление у вас не вполне нормально, однако оно не находится в опасной зоне. Через 3 мес нам нужно снова его проверить". Так или иначе, в некоторый момент врач должен принять решение: это давление требует лечения таблетками, а другое - нет.

Определение зон относительного и абсолютного риска для непрерывных физиологических или патологических параметров - сложная наука, в которой следует принимать во внимание вероятность побочных исходов, на предотвращение которых направлено лечение. Более объективным этот процесс делает использование отношений правдоподобия (см. раз дел 7.4). Увлекательно обсуждение различных возможных значений слова "нормальный" в диагностических исследованиях можно найти в книге Д. Сэккета и соавт.

Вопрос 10. Интерпретируется ли данный тест в контексте других тестов в диагностическом поиске при данном состоянии?

В целом, высокое артериальное давление мы лечим на основании только из мерения давления (хотя мы стараемся полагаться на серию, а не на однократное измерение). Сравните это с последовательностью, которую мы используем для диагностики стеноза коронарных артерий. Сначала мы отбираем больных с типичной историей стенокардии напряжения (боли в сердце при физических упражнениях). Затем мы проводим ЭКГ в покое, ЭКГ с физической нагрузкой и, в некоторых случаях, радионуклидное исследование для определения областей в сердце с не достаточным поступлением кислорода. Коронарную ангиографию (наиболее точное исследование стеноза коронарных артерий) большинству пациентов проводят только после того, как были получены аномальные результаты предварительных тестов.

Если вы возьмете 100 случайных людей и отправите их на коронарную ангиографию, этот тест может показать различные значения положительной и отрицательной прогностической ценности (и даже различную чувствительность и специфичность), по сравнению с популяцией больных лиц, в которой этот тест первоначально оценивался. Это означает, что различные аспекты достоверности коронарной ангиографии как диагностического исследования практически бессмысленны, пока эти цифры не выражаются в терминах их вклада в общий диагностический поиск.

7.4. Отношение правдоподобия

В вопросе 9 поднимается проблема определения диапазона нормы для непрерывной переменной. В этих обстоятельствах результаты теста предпочтительнее выражать не как "нормальные" или "патологические", а в терминах вероятности у больного заболевания, если результат теста достигает определенного уровня. Примером может служить использование простатоспецифического антигена (ПСА) для скрининга на рак предстательной железы. У большинства мужчин в крови определяется некоторое значение ПСА (например, 0,5 нг/мл); у большинства мужчин, страдающих раком предстательной железы, уровень ПСА очень высок (выше 20 нг/мл). Уровень ПСА 7,4 нг/мл может быть обнаружен как у абсолютно здорового мужчины, так и у человека с ранней стадией рака. Четкая граница между нормой и патологией отсутствует (Catalona, 1994).

Результаты оценки теста ПСА в сравнении с "золотым стандартом" (биопсия предстательной железы) можно использовать для составления серии таблиц типа табл. 7.2. В разных таблицах будут использоваться различные определения аномального результата ПСА для разделения всех лиц на "норму" и "патологию". Из этих таблиц мы можем получить различные отношения правдоподобия, связанные со значениями ПСА, на ходящимися в различных диапазонах.

В этом случае, даже если значение ПСА у нашего пациента окажется в "серой" зоне, мы сможем сказать: "Это исследование не подтвердило рак предстательной железы у больного, но оно повысило (или снизило) вероятность этого диагноза на x". (Как я говорила в разделе 6.3, тест на ПСА не позволяет четко провести различие между наличием и отсутствием рака независимо от того, какое значение используется для отделения нормы от патологии. Другими словами, нет такого значения ПСА, которое давало бы высокое отношение правдо подобия для выявления рака.)

Хотя отношение правдоподобия - наиболее сложный для вычисления аспект диагностического теста, он имеет огромную практическую ценность и становится все более предпочтительным способом выражения и сравнения пользы различных тестов. В своем руководстве Д. Сэккет и соавт. (1991) объясняют, как отношение правдоподобия можно использовать для подтверждения или исключения конкретного диагноза. Например, если у пациента нет никаких симптомов, я знаю, что вероятность железодефицитной анемии у него составляет 5%, поскольку в популяции в среднем этим заболеванием страдает 1 человек из 20 [на языке диагностических исследований это означает, что претестовая (априорная) вероятность анемии у пациента равна распространенности этого состояния и составляет 0,05] (Guyatt и соавт., 1990).

Далее я провожу диагностическое исследование на анемию - определение уровня ферритина в сыворотке. Результат этого теста делает диагноз анемии более вероятным или менее вероятным. Отношение правдоподобия для умеренно сниженного уровня сывороточного ферритина (между 18 и 45 пг/л) равно 3, вероятность железодефицитной анемии у пациента с таким результатом вычисляется следующим образом: 0,05Ч3 = 0,15 (15%). Этот показатель называют посттестовой (апостериорной) вероятностью. (Строго говоря, вычисления следует проводить с шансами, а не вероятностями; приведенный здесь простой метод дает примерную оценку в условиях, когда претестовая вероятность низкая. В этом примере претестовая вероятность в 5% соответствует претестовым шансам 0,05/0,95 = 0,053, положительный тест с отношением правдоподобия 3 дает посттестовые шансы 0,158, что соответствует посттестовой вероятности 14% (Guyatt, 1990).

Рис. 7.1 представляет собой номограмму, адаптированную Д. Саккетом и соавт. на основе оригинального исследования Т. Фэгена (Fagan, 1975) для определения посттестовой вероятности на основе претестовой вероятности (распространенности) и отношения правдоподобия.

Линии A, B и С начинаются с претестовой вероятности 25% (распространенность курения среди взрослых лиц в Великобритании) и проходят через отношения прав доподобия соответственно 15, 100 и 0,015 - 3 различных теста для выявления курения (Anonymous, 1996). Тест C фактически поз воляет определить, что человек не курит, поскольку положительный результат этого теста ведет к посттестовой вероятности всего 0,5%.

И последнее. Как я говорила в начале гла вы, вы можете использовать диагностические тесты, не обращаясь к отношениям правдоподобия. Я сама долгие годы обходилась без них. Но если вы посвятите полдня освоению этого аспекта клинической эпидемиологии, ваше время будет потрачено не зря.

Материалы данного сайта распространяются на условиях лицензии Creative Commons Attribution 4.0 International License («Атрибуция - Всемирная»)

ГЛАВНЫЙ РЕДАКТОР
ГЛАВНЫЙ РЕДАКТОР
Балкизов Залим Замирович
Генеральный секретарь Российского общества специалистов медицинского образования, директор Института подготовки специалистов медицинского образования ФГБОУ ДПО РМАНПО Минздрава России, профессор кафедры профессионального образования и образовательных технологий ФГАОУ ВО РНИМУ им. Н.И. Пирогова Минздрава России, генеральный директор компании ГЭОТАР-Мед, Советник Президента Национальной медицинской палаты, Москва, Российская Федерация

Журналы «ГЭОТАР-Медиа»