Меню

2-3 . 2017

Компьютерная модель решения задач классификации в программной среде Rapid Miner

Никонорова Маргарита Леонидовна

РезюмеРазвитие информационных технологий и современных коммуникаций, появление в клиниках большого количества автоматизированных медицинских приборов и компьютеров привело к значительному росту медицинской специализированной информации и биомедицинских данных. Методы и технологии анализа данных Data Mining позволяют выявить ряд скрытых закономерностей и связей между различными массивами данных. Правила принятия решений, получаемые при классификации, содержат новые медицинские знания. Статистический контроль качества диагностических тестов с бинарными исходами показал, что компьютерная модель классификации может использоваться для построения алгоритмов диагностики заболеваний. Построение модели решения задач классификации в программной среде Rapid Miner на практических занятиях развивает информационно-технологические компетенции, обеспечивает отработку компетенций принятия практических решений в реальных условиях профессиональной деятельности.

Ключевые слова:• дерево решений • задачи классификации • Rapid Miner • практическое занятие

Мед. образование и проф. развитие. 2017. № 2-3. С. 24-33.

DOI: 10.24411/2220-8453-2017-00003

Современный этап развития общества характеризуется экспоненциальным ростом количества накопленной информации. В течение длительного времени в информационных системах медицинских учреждений создавались электронные архивы историй болезни, компьютерные средства диагностики и тестирования пациентов, системы анкетирования и многое другое. Однако для извлечения из накопленных данных полезной информации знаний требуется их определенная обработка, которая поможет существенно расширить границы применимости научных результатов. Методы и технологии анализа данных Data Mining выявляют неочевидные, объективные и полезные закономерности различного типа. Интеллектуальный анализ данных Data Mining позволяет проводить глубокое исследование и обнаруживать в данных ранее неизвестные, практически полезные и достаточно интерпретируемые связи [2]. Основные методы интеллектуального анализа данных базируются на статистике, машинном обучение и теории баз данных, а наиболее часто используемые методы интеллектуального анализа данных - классификация и кластеризация.

Статистические алгоритмы классификации основаны на априорных предположениях о виде плотностей распределения классов (байесовское решающее правило, линейный дискриминант Фишера, ЕМ-алгоритм). Метрические алгоритмы основаны на формализации понятия сходства между объектами и гипотезе компактности (методы ближайших соседей, потенциальных функций, радиальных базисных функций). Алгоритмы классификации можно построить на основании индукции правил (rule induction, rule learning) или индуктивного вывода логических закономерностей [7].

Отметим, что одним из наиболее популярных методов решения задач классификации является метод деревьев решающих правил или деревьев принятия решений.

Алгоритмы интеллектуального анализа данных реализуются фирмой Microsoft в табличном процессоре Excel, где для анализа данных добавляется вкладка "Анализ". Компания Palisade поставляет комплексный пакет Decision Tools Suite, в состав которого входит Precision Tree. Данный пакет также встраивается в табличный процессор Excel. Создавать деревья решений возможно и в Microsoft Visio профессиональный 2013. Результат работы See5 системы See5/C5.0 компании RuleQuest выражается в виде деревьев решений и множества правил if. then. Программа для построения деревьев решений AnswerTree входит в состав пакета SPSS.

Рассмотрим технологию построения компьютерной модели классификации биомедицинских данных методом деревьев принятия решений на примере бесплатно распространяемой программы Rapid Miner [8].

Цели проведенного исследования - создание компьютерной модели классификации биомедицинских данных и выявление правил принятия решений в программной среде Rapid Miner.

Для достижения данной цели были поставлены следующие задачи:

- построить компьютерную модель классификации и анализа результатов на примере оценки комплексного функционального исследования внешнего дыхания;

- проанализировать эффективность построенной компьютерной модели классификации.

Дерево решений - это способ представления правил в виде иерархического графа. В состав дерева решений входят узлы, содержащие правила проверки зависимых атрибутов и разбиения выборки данных на разные классы, листья, не содержат ветвления и являются конечными узлами дерева, именно листья определяют принадлежность к одному из диагностических классов. Атрибуты или показатели, выбранные в соответствии с условием и наилучшим образом разбивающие выборку на разные классы, располагаются выше в дереве. Таким образом, наиболее информативный показатель с точки зрения разбиения выборки на подклассы, находится в вершине дерева [6] и является корнем дерева или корневым узлом. Корень дерева не имеет входных ветвей. Дерево решений может быть представлено в виде логических высказываний или правил, где каждое правило отражает путь из корня в лист и описывается логическими цепочками условий. Качество построенного дерева характеризуют такие показатели, как точность и сложность. Под точностью дерева понимается точность разделения объектов на диагностические классы. Сложность дерева определяется числом листьев дерева и его внутренних узлов, а также максимальной длиной пути из корня в лист [1].

В программе Rapid Miner процесс классификации данных методом "Дерево решений" состоит из двух этапов: этапа обучения, в котором обучающая выборка анализируется относительно целевых атрибутов - листьев дерева и непосредственно классификации, в этом случае тестовые данные используются для оценки точности создаваемых правил классификации. Если точность является допустимой, правила применяют для классификации новых наборов данных [9]. Для повышения качества классификации используют кросс-валидацию, разбивающую выборку на N групп, причем каждая группа один раз участвует в классификации (тестировании) и (N - 1) раз в обучении. В результате можно оценить количество правильно и неправильно классифицированных объектов при помощи таблицы ошибок.

Следует отметить, что в качестве меры информативности в программе Rapid Miner обычно используют следующие параметры построения дерева: information gain (вычисляется энтропия всех атрибутов в соответствии с формулой Шеннона, атрибуты с минимальной энтропией расщепляются); gain ratio (задает диапазон и степень однородности для каждого атрибута, усечение дерева производится путем замещения целого поддерева листом); gini index (индекс Джини, задает при необходимости меру добавления, создает разветвления дерева по бинарному разделению), accuracy (оценивает точность атрибутов при разветвлении и максимальную точность всего дерева).

Закономерности в виде правил, предоставляемые деревом решений, могут применяться в научных исследованиях для поиска нестандартных медицинских случаев и их дальнейшего анализа [6]. Например, результаты комплексного функционального исследования внешнего дыхания после технологии анализа методом "Дерево решений" можно использовать для построения алгоритмов диагностики заболеваний легких.

Подробное построение модели принятия решений в прикладной среде Rapid Miner описано в методическом кейсе [5].

В качестве исходных данных для построения модели взяты данные спирометрии у пациентов с нарушениями здоровья, оценку степени и выраженности нарушений условно обозначаемыми Д1, Д2, Д3. Исследования проводились в течение нескольких лет и из собранной базы данных рандомизированно выбрано 277 пациентов. Такой выбор оптимален для решения учебных задач в программной среде Rapid Miner различными методами классификации, например, дерево решений, нейронная сеть. Источником получения знаний при решении учебных задач является выполнение практической работы, которая всегда имеет ограничение по времени.

Выбранные пациенты распределились в зависимости от пола: 113 мужчин и 164 женщины со средним возрастом 47 лет. Исходное распределение по степени и выраженности нарушений дыхания можно представить следующим образом: Д1 - 47 пациентов; Д2 - 115 пациентов; Д3 - 115 пациентов. Традиционно при интерпретации результатов легочных функциональных тестов используют должные величины, разработанные Р.Ф. Клементом. Количественные результаты спирометрии, оцениваемые с помощью должных величин [6] и участвующие в построении дерева решений, сведены в табл. 1.

Вышеперечисленные показатели спирометрии загружаются в репозиторий, далее следует машинное обучение и тестирование, затем оценка точности классификации и анализ построенного дерева решений. В процессе загрузки задается тип численных (numeric, integer, real) и качественных (nominal, binominal, polinominal) данных. В качестве целевых атрибутов - листьев выбираются степень и выраженность нарушений Д1, Д2, Д3 (diagnosis).

В программе Rapid Miner все операторы получают исходные данные на входе, после этого выполняется алгоритм оператора (дерево решений, нейронные сети) и на выходе оператор выдает некий результат.

Компьютерная модель классификатора и анализа данных строится на рабочем столе программы Rapid Miner в виде последовательной цепочки операторов и затем запускается на выполнение (рис. 1). С помощью оператора Retrive загружаются входные данные из репозитория для последующей классификации и анализа. Следующий оператор, Set Role, выделяет целевые атрибуты Д1, Д2, Д3, относительно которых будет проведена классификация. Данный оператор можно исключить, если назначение целевых атрибутов было проведено на этапе загрузки данных в репозиторий. Оператор Select Attributes позволяет отделить атрибуты, которые не рекомендуется использовать при проведении классификации, в данном случае patID. Оператор Validation содержит 2 внутренние панели: обучения (traning) и тестирования (testing). На левую панель помещается оператор Decision Tree, для которого задаются различные критерии построения, на правой панели размещаются операторы Apply Model, строящий модель дерева принятия решений, и Perfomance, оценивающий качество классификации данных и правил построения дерева решений.

Для того чтобы избежать ошибочных оценок на рабочий стол необходимо добавить еще несколько операторов: Retrive, Set Role, Select Attributes, Apply Model, Rule Model. В этом случае появляется возможность оценить точность построения дерева принятия решений на тестовом наборе данных, который не использовался для обучения модели, при этом точность уменьшается на 3-5%.

Оператор Rule Model выводит набор правил классификации входных данных (рис. 2) на основе вычисленной энтропии всех атрибутов для последующего разделения выбирается атрибут с минимальной энтропией.

Представленный набор правил классификации показывает, что оператор Rule Model исключил из анализа 3 пациентов, из оставшихся 274 пациентов в построении правил классификации участвовали только 242. Входные данные 35 пациентов Rule Model не смог классифицировать, и это требует дальнейшего изучения. В конце каждой строки представленных правил в скобках показаны значения прогнозируемых атрибутов-листьев в следующей последовательности: Д2, Д1 и Д3. Например, при условии, что полный объем легких ≤0,805 и индекс Генслера >0,832, степень и выраженности нарушений Д1 прогнозируется у 68 пациентов, Д2 - у 2, Д3 - у 3. На рис. 2 полужирным шрифтом выделены максимальные значения для прогнозируемых нарушений по каждому логическому условию. В 3-й строке указан возраст вместе со стандартным отклонением для нарушений Д1, Д2 и Д3 - 36,496+6,718. Следовательно, уже при поверхностном анализе правил классификации могут быть обнаружены скрытые закономерности и связи. Например, на степень и выраженность нарушений Д1 оказывает влияние объем форсированного выдоха за 1 с, для Д2 важное значение имеет возраст пациента (<43 лет) и объем форсированной жизненной емкости легких, при Д3 следует обратить внимание на значение жизненной емкости легких. Все перечисленные показатели индивидуальны для каждого пациента. Информативность спирометрии в диагностике механики дыхания приведена в [4]. Общее количество прогнозируемых нарушений: Д1 - 47 пациентов; Д2 - 46 пациентов и Д3 - 114 пациентов. Таким образом, Д2 не определяется с помощью правил классификации, следовательно, можно порекомендовать исключить возраст пациентов при проведении классификации с помощью предложенной компьютерной модели и повторно провести исследование.

Набор правил классификации входных данных отличается от набора правил полученных после построения дерева принятия решений (рис. 3). Алгоритм, лежащий в основе оператора Decision Tree, рассматривает все данные, поданные на вход в соответствии с выбранным критерием построения, выбирает наиболее значимые среди них, и только эти атрибуты участвуют в построении дерева. В этом случае происходит обрезка листовых узлов, в которых не выполняются определенные условия, например, которые меньше порогового значения или допускают частоту ошибок >50%. Пороговое значение и частота ошибок подсчитывает алгоритм оператора. Построить полное дерево решений можно при любых критериях построения. На рис. 3 приведен пример правил классификации методом дерево решений с критерием gain ratio.

Дерево решений классифицировало всех пациентов с предполагаемыми нарушениями: Д1 (115 пациентов), Д2 (47 пациентов) и Д3 (115 пациентов). Часть пациентов с Д2 классифицирована как пациенты с нарушениями Д1. Пациенты с нарушениями Д3 классифицированы полностью. После сравнения наборов правил классификации можно отметить, что при полном объеме легких >0,805 метод дерево решений прогнозирует нарушения Д3, в отличии от Д2, определяемого оператором Rule Model. Также заметим, что прогнозируемое нарушение в усеченном дереве решений не зависит от пола пациента и отношения диффузионной емкости легких к альвеолярному объему. Но, к сожалению, такое дерево не может устанавливать предварительный диагноз, поскольку не содержит информацию о других диагнозах пациентов, хотя его структура интересна сама по себе и может послужить основой для гипотез и дальнейших исследований [6].

Для улучшения качества классификации, распознавания и прогнозирования, а также для получения устойчивых закономерностей (устойчивость - повторение результатов) может быть использована процедура построения леса деревьев решений [3]. Деревья строятся с различными критериями, но по разным выборкам. Каждая новая выборка получается из предыдущей путем уменьшения атрибутов входных данных. Максимальное количество деревьев, входящих в лес, достигает log₂D + 1, где D - количество входных атрибутов описывающих объект.

В созданной компьютерной модели классификации можно построить 16 деревьев решений без изменения входных атрибутов. Примеры построенных деревьев решений с различными критериями сведены в табл. 2.

Качество классификационной модели, построенной при помощи дерева решений, оценивается точностью распознавания и ошибкой. Точность распознавания - отношение объектов правильно классифицированных в процессе обучения к общему количеству объектов массива данных, которые принимали участие в обучении. Ошибка - отношение объектов неправильно классифицированных в процессе обучения к общему количеству объектов массива данных, которые принимали участие в обучении. В соответствии с построенной таблицей результатов можно предположить, что наиболее оптимальным является дерево решений с критерием построения gain_ratio, таблица точности которого показана на рис. 4. Дерево считается оптимальным, если оно использует информацию улучшающую качество модели и игнорирует иную информацию.

Данное дерево имеет наибольшую точность построения и 6 различных ветвей ведущих к листьям, прогнозируемым нарушениям Д1, Д2 или Д3. При этом основными узлами являются жизненная сила легких, форсированная жизненная сила легких, объем форсированного выдоха за 1 с. Все перечисленные показатели измеряются с помощью спирометра и на их основе вычисляются ticpred, fev1fvc, vapred. Оценка результатов однократного исследования отражает только те нарушения, которые имели место во время исследования.

Согласно рис. 4, дерево решений имеет общую точность классификации 71,49%. Верно распознает Д1 в 72%, Д2 в 21% и Д3 в 91% случаев. Верно предсказывает Д1 в 86% случаев, Д2 в 59% и Д3 в 64% случаев. На основании рис. 4 составим таблицу ошибок 2x2 (табл. 3) и рассмотрим 2 класса: "точн_рапозн" и "ошибка". В этом случае можно говорить о чувствительности и предсказательности дерева решений как метода диагностики.

После проведенного анализа (рис. 4), видно, что нарушения прогнозируются у 83+10+105=198 пациентов, не точно поставлена степень и выраженность нарушений у 5+32+5+27+2+8=79 пациентов. Прогнозируемый Д1 есть у 5 пациентов, а дерево решений распознает его как Д2, но и распознанный Д1 есть у 5 пациентов с прогнозируемым Д2. Прогнозируемый Д1 есть у 27 пациентов с распознанным Д3, но распознанный Д1 есть у 8 пациентов с прогнозируемым Д3. Также прогнозируемый Д2 есть у 32 пациентов, у которых с дерево решений распознает Д3, однако классифицированный Д2 прогнозируется у 2 пациентов с Д3. Таким образом, мы получаем, что 19+30=49 пациентов имеют предполагаемую степень нарушений, но не распознаются методом классификации дерево решений.

Показателями качества диагностического теста являются вероятностные показатели распознавательной и предсказательной способности. Чувствительность есть условная вероятность положительных результатов диагностического теста (T+) распознавать предполагаемые нарушения (D+). Предсказательность позитивов является условной вероятностью верного предположения положительных результатов наличия предполагаемых нарушений при условии получения положительного результата теста.

Полученное значение чувствительности 0,799 вместе с доверительным интервалом [0,730; 0,86] является статистически значимо на уровне доверия 99%, так не включает неинформативное значение 0,5. Предсказательность позитивов 0,99 вместе с доверительным интервалом [0,97; 1] статистически высоко значимо на уровне доверия 99%, так как не перекрывается с распространенностью 0,89, имеющей доверительный интервал [0,84; 0,93], и не содержит неинформативное значение 0,5.

При полученных значениях точности построенной компьютерной модели и ее предсказательной способности можно использовать построенную модель классификатора и его результаты, правила классификации, для уточнения функциональных особенностей легких, построения алгоритмов диагностики заболевания легких, в ранней диагностике, a также для дальнейших исследований и построения гипотез. Кроме того, спирометрия является основным средством диагностики и количественной оценки не только самых различных легочных расстройств, но и других болезней дыхательной, сердечнососудистой, нервной систем и опорно-двигательного аппарата. Традиционно врач проводит анализ результатов исследований в зависимости от определяющих факторов (по возрасту, полу и физическим навыкам пациента). Для расчета должных величин он выполняет сопоставление полученных величин с их нормами, границами, градациями и относительной степенью отклонения. Предложенная компьютерная модель решения задач классификации помогает провести анализ результатов спирометрии с помощью программных средств.

Практические методы обучения основаны на практической деятельности учащихся, этими методами формируют практические компетенции студентов. Метод моделирования позволяет использовать интегрированный подход при проведении практических занятий и осваивать компетенции в индивидуальном темпе. Следует отметить, что средства информационных и компьютерных технологий активизируют учебно-познавательную и исследовательскую деятельность студентов. Построение компьютерной модели классификации на практических занятиях обеспечивает отработку компетенций принятия практических решений в реальных условиях профессиональной деятельности

Все вышеизложенное позволяет сделать следующие выводы:

1. Компьютерная модель классификации в программе Rapid Miner проводит анализ результатов спирометрии и формирует правила решений, которые можно использовать при создании алгоритмов диагностики заболеваний на ранней стадии.

2. Полученная модель классификации помогает определить прогноз или риск развития заболевания в зависимости от количественных результатов спирометрии.

3. Построение компьютерной модели классификации в среде Rapid Miner развивает информационно-технологические компетенции, компетенции анализа и принятия решений.

4. Рассматриваемый пример комплексного функционального исследования внешнего дыхания можно дополнительно рассмотреть на примере построения леса деревьев решений и отработать методику анализа полученных результатов.

Литература

1. Берестнева О.Г., Муратова Е.А. Построение логических моделей с использованием деревьев решений // Известия Томского политех. универ. 2004. Т. 27, вып. 2. С.154-159.

2. Дюк В., Самойленко Л. Data Mining: учебный курс. СПб. : Изд. Питер, 2001. 368 с.

3. Дюк В., Эммануэль В. Информационные технологии в медико-биологических исследованиях. СПб. : Питер, 2003. 528 с.

4. Каменева М.Ю., Трофимов В.И., Тишков А.В. Информативность спирометрии в диагностике нарушений механики дыхания у больных интерстициальными заболеваниями легких // Бюл. физиол. и патологии дыхания. 2015. № 66. С. 8-14.

5. Никонорова М.Л. Интеллектуальный анализ медицинских данных с использованием кейсовой технологии // Врач и информ. технологии. 2016. № 1. С. 54-59.

6. Тишков А.В., Каменева М.Ю., Гладской А.А., Гунченко А.И. и др. Применение деревьев решений для интерпретации нарушений механики дыхания и легочного газообмена // Вестник ТвГУ. Серия "Биология и экология". 2013. № 29. С. 264-271.

7. Методы построения деревьев решений в задачах классификации Data Mining. Режим доступа https://www.ami.nstu.ru/~vms/lecture/data_mining/trees.htm. Дата обращения: 28.04.2017.

8. Прикладная программа Rapid Miner. Режим доступа: https://rapidminer.com/products/studio/. Дата обращения: 16.06.2016

9. Data mining : concepts and techniques / Jiawei Han, Micheline Kamber, Jian Pei. 3^rd ed. 2012.

Материалы данного сайта распространяются на условиях лицензии Creative Commons Attribution 4.0 International License («Атрибуция - Всемирная»)

ГЛАВНЫЙ РЕДАКТОР

Балкизов Залим Замирович

Генеральный секретарь Российского общества специалистов медицинского образования, директор Института подготовки специалистов медицинского образования ФГБОУ ДПО РМАНПО Минздрава России, профессор кафедры профессионального образования и образовательных технологий ФГАОУ ВО РНИМУ им. Н.И. Пирогова Минздрава России, генеральный директор компании ГЭОТАР-Мед, Советник Президента Национальной медицинской палаты, Москва, Российская Федерация

Купить номер Оформить подписку