Компьютерная модель решения задач классификации в программной среде Rapid Miner

Резюме Развитие информационных технологий и современных коммуникаций, появление в клиниках большого количества автоматизированных медицинских приборов и компьютеров привело к значительному росту медицинской специализированной информации и биомедицинских данных. Методы и технологии анализа данных Data Mining позволяют выявить ряд скрытых закономерностей и связей между различными массивами данных. Правила принятия решений, получаемые при классификации, содержат новые медицинские знания. Статистический контроль качества диагностических тестов с бинарными исходами показал, что компьютерная модель классификации может использоваться для построения алгоритмов диагностики заболеваний. Построение модели решения задач классификации в программной среде Rapid Miner на практических занятиях развивает информационно-технологические компетенции, обеспечивает отработку компетенций принятия практических решений в реальных условиях профессиональной деятельности.

Ключевые слова: • дерево решений • задачи классификации • Rapid Miner • практическое занятие

Мед. образование и проф. развитие. 2017. № 2-3. С. 24-33.

Современный этап развития общества характеризуется экспоненциальным ростом количества накопленной информа­ции. В течение длительного времени в ин­формационных системах медицинских учреждений создавались электронные архивы историй болезни, компьютерные средства диагностики и тестирования па­циентов, системы анкетирования и многое другое. Однако для извлечения из нако­пленных данных полезной информации знаний требуется их определенная об­работка, которая поможет существенно расширить границы применимости на­учных результатов. Методы и технологии анализа данных Data Mining выявляют неочевидные, объективные и полезные за­кономерности различного типа. Интеллек­туальный анализ данных Data Mining по­зволяет проводить глубокое исследование и обнаруживать в данных ранее неизвест­ные, практически полезные и достаточно интерпретируемые связи [2]. Основные методы интеллектуального анализа дан­ных базируются на статистике, машинном обучение и теории баз данных, а наиболее часто используемые методы интеллекту­ального анализа данных - классификация и кластеризация.

Статистические алгоритмы классифика­ции основаны на априорных предположени­ях о виде плотностей распределения классов (байесовское решающее правило, линейный дискриминант Фишера, ЕМ-алгоритм). Ме­трические алгоритмы основаны на форма­лизации понятия сходства между объектами и гипотезе компактности (методы ближай­ших соседей, потенциальных функций, ра­диальных базисных функций). Алгоритмы классификации можно построить на осно­вании индукции правил (rule induction, rule learning) или индуктивного вывода логиче­ских закономерностей [7].

Отметим, что одним из наиболее попу­лярных методов решения задач классифи­кации является метод деревьев решающих правил или деревьев принятия решений.

Алгоритмы интеллектуального анализа данных реализуются фирмой Microsoft в табличном процессоре Excel, где для ана­лиза данных добавляется вкладка "Анализ". Компания Palisade поставляет комплекс­ный пакет Decision Tools Suite, в состав ко­торого входит Precision Tree. Данный пакет также встраивается в табличный процес­сор Excel. Создавать деревья решений воз­можно и в Microsoft Visio профессиональ­ный 2013. Результат работы See5 системы See5/C5.0 компании RuleQuest выражается в виде деревьев решений и множества пра­вил if. then. Программа для построения деревьев решений AnswerTree входит в со­став пакета SPSS.

Рассмотрим технологию построения компьютерной модели классификации био­медицинских данных методом деревьев при­нятия решений на примере бесплатно рас­пространяемой программы Rapid Miner [8].

Цели проведенного исследования - соз­дание компьютерной модели классифика­ции биомедицинских данных и выявление правил принятия решений в программной среде Rapid Miner.

Для достижения данной цели были по­ставлены следующие задачи:

- построить компьютерную модель клас­сификации и анализа результатов на примере оценки комплексного функ­ционального исследования внешнего дыхания;

- проанализировать эффективность построенной компьютерной модели классификации.

Дерево решений - это способ представ­ления правил в виде иерархического графа. В состав дерева решений входят узлы, содержащие правила проверки зависимых атрибутов и разбиения выборки данных на разные классы, листья, не содержат ветвления и являются конечными узлами дерева, именно листья определяют при­надлежность к одному из диагностических классов. Атрибуты или показатели, вы­бранные в соответствии с условием и наи­лучшим образом разбивающие выборку на разные классы, располагаются выше в дереве. Таким образом, наиболее инфор­мативный показатель с точки зрения раз­биения выборки на подклассы, находится в вершине дерева [6] и является корнем дерева или корневым узлом. Корень дерева не имеет входных ветвей. Дерево решений может быть представлено в виде логиче­ских высказываний или правил, где каж­дое правило отражает путь из корня в лист и описывается логическими цепочками условий. Качество построенного дерева характеризуют такие показатели, как точ­ность и сложность. Под точностью дерева понимается точность разделения объектов на диагностические классы. Сложность дерева определяется числом листьев дере­ва и его внутренних узлов, а также макси­мальной длиной пути из корня в лист [1].

В программе Rapid Miner процесс классификации данных методом "Дерево решений" состоит из двух этапов: этапа обу­чения, в котором обучающая выборка ана­лизируется относительно целевых атрибу­тов - листьев дерева и непосредственно классификации, в этом случае тестовые данные используются для оценки точ­ности создаваемых правил классифика­ции. Если точность является допустимой, правила применяют для классификации новых наборов данных [9]. Для повыше­ния качества классификации используют кросс-валидацию, разбивающую выборку на N групп, причем каждая группа один раз участвует в классификации (тестировании) и (N - 1) раз в обучении. В результате мож­но оценить количество правильно и не­правильно классифицированных объектов при помощи таблицы ошибок.

Следует отметить, что в качестве меры информативности в программе Rapid Miner обычно используют следующие па­раметры построения дерева: information gain (вычисляется энтропия всех атрибу­тов в соответствии с формулой Шеннона, атрибуты с минимальной энтропией рас­щепляются); gain ratio (задает диапазон и степень однородности для каждого атри­бута, усечение дерева производится путем замещения целого поддерева листом); gini index (индекс Джини, задает при необхо­димости меру добавления, создает развет­вления дерева по бинарному разделению), accuracy (оценивает точность атрибутов при разветвлении и максимальную точ­ность всего дерева).

Закономерности в виде правил, предо­ставляемые деревом решений, могут при­меняться в научных исследованиях для по­иска нестандартных медицинских случаев и их дальнейшего анализа [6]. Например, результаты комплексного функционально­го исследования внешнего дыхания после технологии анализа методом "Дерево реше­ний" можно использовать для построения алгоритмов диагностики заболеваний лег­ких.

Подробное построение модели при­нятия решений в прикладной среде Rapid Miner описано в методическом кейсе [5].

В качестве исходных данных для по­строения модели взяты данные спироме­трии у пациентов с нарушениями здоровья, оценку степени и выраженности наруше­ний условно обозначаемыми Д1, Д2, Д3. Исследования проводились в течение не­скольких лет и из собранной базы данных рандомизированно выбрано 277 пациен­тов. Такой выбор оптимален для решения учебных задач в программной среде Rapid Miner различными методами классифика­ции, например, дерево решений, нейрон­ная сеть. Источником получения знаний при решении учебных задач является вы­полнение практической работы, которая всегда имеет ограничение по времени.

Выбранные пациенты распределились в зависимости от пола: 113 мужчин и 164 женщины со средним возрастом 47 лет. Исходное распределение по степени и вы­раженности нарушений дыхания можно представить следующим образом: Д1 - 47 пациентов; Д2 - 115 пациентов; Д3 - 115 пациентов. Традиционно при интерпрета­ции результатов легочных функциональ­ных тестов используют должные величины, разработанные Р.Ф. Клементом. Количе­ственные результаты спирометрии, оцени­ваемые с помощью должных величин [6] и участвующие в построении дерева реше­ний, сведены в табл. 1.

Вышеперечисленные показатели спи­рометрии загружаются в репозиторий, далее следует машинное обучение и те­стирование, затем оценка точности классификации и анализ построенного дерева решений. В процессе загрузки задается тип численных (numeric, integer, real) и каче­ственных (nominal, binominal, polinominal) данных. В качестве целевых атрибутов - листьев выбираются степень и выражен­ность нарушений Д1, Д2, Д3 (diagnosis).

В программе Rapid Miner все операторы получают исходные данные на входе, по­сле этого выполняется алгоритм оператора (дерево решений, нейронные сети) и на выходе оператор выдает некий результат.

Компьютерная модель классификато­ра и анализа данных строится на рабочем столе программы Rapid Miner в виде по­следовательной цепочки операторов и за­тем запускается на выполнение (рис. 1). С помощью оператора Retrive загружают­ся входные данные из репозитория для последующей классификации и анализа. Следующий оператор, Set Role, выделяет целевые атрибуты Д1, Д2, Д3, относитель­но которых будет проведена классифика­ция. Данный оператор можно исключить, если назначение целевых атрибутов было проведено на этапе загрузки данных в репозиторий. Оператор Select Attributes по­зволяет отделить атрибуты, которые не рекомендуется использовать при проведении классификации, в данном случае patID. Оператор Validation содержит 2 внутренние панели: обучения (traning) и тестирования (testing). На левую панель помещается опе­ратор Decision Tree, для которого задаются различные критерии построения, на пра­вой панели размещаются операторы Apply Model, строящий модель дерева принятия решений, и Perfomance, оценивающий ка­чество классификации данных и правил построения дерева решений.

Для того чтобы избежать ошибочных оценок на рабочий стол необходимо до­бавить еще несколько операторов: Retrive, Set Role, Select Attributes, Apply Model, Rule Model. В этом случае появляется возмож­ность оценить точность построения дере­ва принятия решений на тестовом наборе данных, который не использовался для об­учения модели, при этом точность умень­шается на 3-5%.

Оператор Rule Model выводит набор правил классификации входных данных (рис. 2) на основе вычисленной энтропии всех атрибутов для последующего разде­ления выбирается атрибут с минимальной энтропией.

Представленный набор правил клас­сификации показывает, что оператор Rule Model исключил из анализа 3 пациентов, из оставшихся 274 пациентов в построении правил классификации участвовали толь­ко 242. Входные данные 35 пациентов Rule Model не смог классифицировать, и это требует дальнейшего изучения. В конце каждой строки представленных правил в скобках показаны значения прогнозиру­емых атрибутов-листьев в следующей по­следовательности: Д2, Д1 и Д3. Например, при условии, что полный объем легких ≤0,805 и индекс Генслера >0,832, степень и выраженности нарушений Д1 прогнози­руется у 68 пациентов, Д2 - у 2, Д3 - у 3. На рис. 2 полужирным шрифтом выделены максимальные значения для прогнозируе­мых нарушений по каждому логическому условию. В 3-й строке указан возраст вме­сте со стандартным отклонением для нару­шений Д1, Д2 и Д3 - 36,496+6,718. Следо­вательно, уже при поверхностном анализе правил классификации могут быть обна­ружены скрытые закономерности и связи. Например, на степень и выраженность на­рушений Д1 оказывает влияние объем фор­сированного выдоха за 1 с, для Д2 важное значение имеет возраст пациента (<43 лет) и объем форсированной жизненной ем­кости легких, при Д3 следует обратить внимание на значение жизненной емко­сти легких. Все перечисленные показате­ли индивидуальны для каждого пациента. Информативность спирометрии в диагно­стике механики дыхания приведена в [4]. Общее количество прогнозируемых нару­шений: Д1 - 47 пациентов; Д2 - 46 паци­ентов и Д3 - 114 пациентов. Таким обра­зом, Д2 не определяется с помощью правил классификации, следовательно, можно порекомендовать исключить возраст па­циентов при проведении классификации с помощью предложенной компьютерной модели и повторно провести исследование.

Набор правил классификации входных данных отличается от набора правил по­лученных после построения дерева приня­тия решений (рис. 3). Алгоритм, лежащий в основе оператора Decision Tree, рассма­тривает все данные, поданные на вход в со­ответствии с выбранным критерием по­строения, выбирает наиболее значимые среди них, и только эти атрибуты участвуют в построении дерева. В этом случае проис­ходит обрезка листовых узлов, в которых не выполняются определенные условия, на­пример, которые меньше порогового значе­ния или допускают частоту ошибок >50%. Пороговое значение и частота ошибок под­считывает алгоритм оператора. Построить полное дерево решений можно при любых критериях построения. На рис. 3 приведен пример правил классификации методом де­рево решений с критерием gain ratio.

Дерево решений классифицировало всех пациентов с предполагаемыми нару­шениями: Д1 (115 пациентов), Д2 (47 паци­ентов) и Д3 (115 пациентов). Часть пациен­тов с Д2 классифицирована как пациенты с нарушениями Д1. Пациенты с наруше­ниями Д3 классифицированы полностью. После сравнения наборов правил класси­фикации можно отметить, что при полном объеме легких >0,805 метод дерево реше­ний прогнозирует нарушения Д3, в отли­чии от Д2, определяемого оператором Rule Model. Также заметим, что прогнозируемое нарушение в усеченном дереве решений не зависит от пола пациента и отношения диффузионной емкости легких к альвео­лярному объему. Но, к сожалению, такое дерево не может устанавливать предвари­тельный диагноз, поскольку не содержит информацию о других диагнозах пациен­тов, хотя его структура интересна сама по себе и может послужить основой для гипо­тез и дальнейших исследований [6].

Для улучшения качества классифика­ции, распознавания и прогнозирования, а также для получения устойчивых законо­мерностей (устойчивость - повторение ре­зультатов) может быть использована про­цедура построения леса деревьев решений [3]. Деревья строятся с различными кри­териями, но по разным выборкам. Каждая новая выборка получается из предыдущей путем уменьшения атрибутов входных дан­ных. Максимальное количество деревьев, входящих в лес, достигает log2D + 1, где D - количество входных атрибутов описы­вающих объект.

В созданной компьютерной модели классификации можно построить 16 де­ревьев решений без изменения входных атрибутов. Примеры построенных дере­вьев решений с различными критериями сведены в табл. 2.

Качество классификационной модели, построенной при помощи дерева решений, оценивается точностью распознавания и ошибкой. Точность распознавания - от­ношение объектов правильно классифи­цированных в процессе обучения к обще­му количеству объектов массива данных, которые принимали участие в обучении. Ошибка - отношение объектов непра­вильно классифицированных в процессе обучения к общему количеству объек­тов массива данных, которые принимали участие в обучении. В соответствии с по­строенной таблицей результатов можно предположить, что наиболее оптимальным является дерево решений с критерием по­строения gain_ratio, таблица точности ко­торого показана на рис. 4. Дерево счита­ется оптимальным, если оно использует информацию улучшающую качество моде­ли и игнорирует иную информацию.

Данное дерево имеет наибольшую точ­ность построения и 6 различных ветвей ведущих к листьям, прогнозируемым на­рушениям Д1, Д2 или Д3. При этом основ­ными узлами являются жизненная сила легких, форсированная жизненная сила легких, объем форсированного выдоха за 1 с. Все перечисленные показатели измеря­ются с помощью спирометра и на их основе вычисляются ticpred, fev1fvc, vapred. Оценка результатов однократного исследования отражает только те нарушения, которые имели место во время исследования.

Согласно рис. 4, дерево решений имеет общую точность классификации 71,49%. Верно распознает Д1 в 72%, Д2 в 21% и Д3 в 91% случаев. Верно предсказывает Д1 в 86% случаев, Д2 в 59% и Д3 в 64% случа­ев. На основании рис. 4 составим таблицу ошибок 2x2 (табл. 3) и рассмотрим 2 клас­са: "точн_рапозн" и "ошибка". В этом слу­чае можно говорить о чувствительности и предсказательности дерева решений как метода диагностики.

После проведенного анализа (рис. 4), видно, что нарушения прогнозируются у 83+10+105=198 пациентов, не точно по­ставлена степень и выраженность нару­шений у 5+32+5+27+2+8=79 пациентов. Прогнозируемый Д1 есть у 5 пациентов, а дерево решений распознает его как Д2, но и распознанный Д1 есть у 5 пациентов с прогнозируемым Д2. Прогнозируемый Д1 есть у 27 пациентов с распознанным Д3, но распознанный Д1 есть у 8 пациентов с про­гнозируемым Д3. Также прогнозируемый Д2 есть у 32 пациентов, у которых с дерево решений распознает Д3, однако классифи­цированный Д2 прогнозируется у 2 паци­ентов с Д3. Таким образом, мы получаем, что 19+30=49 пациентов имеют предпо­лагаемую степень нарушений, но не рас­познаются методом классификации дерево решений.

Показателями качества диагностиче­ского теста являются вероятностные по­казатели распознавательной и предсказа­тельной способности. Чувствительность есть условная вероятность положительных результатов диагностического теста (T+) распознавать предполагаемые наруше­ния (D+). Предсказательность позитивов является условной вероятностью верного предположения положительных результа­тов наличия предполагаемых нарушений при условии получения положительного результата теста.

Полученное значение чувствительно­сти 0,799 вместе с доверительным интер­валом [0,730; 0,86] является статистически значимо на уровне доверия 99%, так не включает неинформативное значение 0,5. Предсказательность позитивов 0,99 вме­сте с доверительным интервалом [0,97; 1] статистически высоко значимо на уровне доверия 99%, так как не перекрывается с распространенностью 0,89, имеющей до­верительный интервал [0,84; 0,93], и не со­держит неинформативное значение 0,5.

При полученных значениях точности построенной компьютерной модели и ее предсказательной способности можно использовать построенную модель клас­сификатора и его результаты, правила классификации, для уточнения функцио­нальных особенностей легких, построе­ния алгоритмов диагностики заболевания легких, в ранней диагностике, a также для дальнейших исследований и построения гипотез. Кроме того, спирометрия явля­ется основным средством диагностики и количественной оценки не только самых различных легочных расстройств, но и других болезней дыхательной, сердечно­сосудистой, нервной систем и опорно-двигательного аппарата. Традиционно врач проводит анализ результатов исследований в зависимости от определяющих факторов (по возрасту, полу и физическим навыкам пациента). Для расчета должных величин он выполняет сопоставление полученных величин с их нормами, границами, града­циями и относительной степенью отклоне­ния. Предложенная компьютерная модель решения задач классификации помогает провести анализ результатов спирометрии с помощью программных средств.

Практические методы обучения осно­ваны на практической деятельности уча­щихся, этими методами формируют прак­тические компетенции студентов. Метод моделирования позволяет использовать интегрированный подход при проведении практических занятий и осваивать компе­тенции в индивидуальном темпе. Следует отметить, что средства информационных и компьютерных технологий активизируют учебно-познавательную и исследователь­скую деятельность студентов. Построение компьютерной модели классификации на практических занятиях обеспечивает от­работку компетенций принятия практи­ческих решений в реальных условиях про­фессиональной деятельности

Все вышеизложенное позволяет сде­лать следующие выводы:

1. Компьютерная модель классифика­ции в программе Rapid Miner проводит анализ результатов спирометрии и фор­мирует правила решений, которые мож­но использовать при создании алгорит­мов диагностики заболеваний на ранней стадии.

2. Полученная модель классификации помогает определить прогноз или риск развития заболевания в зависимости от ко­личественных результатов спирометрии.

3. Построение компьютерной модели классификации в среде Rapid Miner раз­вивает информационно-технологические компетенции, компетенции анализа и принятия решений.

4. Рассматриваемый пример комплекс­ного функционального исследования внеш­него дыхания можно дополнительно рассмо­треть на примере построения леса деревьев решений и отработать методику анализа по­лученных результатов.

Литература

1. Берестнева О.Г., Муратова Е.А. Построение логических моделей с использованием деревьев решений // Известия Томского политех. универ. 2004. Т. 27, вып. 2. С.154-159.

2. Дюк В., Самойленко Л. Data Mining: учебный курс. СПб. : Изд. Питер, 2001. 368 с.

3. Дюк В., Эммануэль В. Информационные технологии в медико-биологических исследованиях. СПб. : Питер, 2003. 528 с.

4. Каменева М.Ю., Трофимов В.И., Тишков А.В. Информативность спирометрии в диагностике на­рушений механики дыхания у больных интерстициальными заболеваниями легких // Бюл. физиол. и патологии дыхания. 2015. № 66. С. 8-14.

5. Никонорова М.Л. Интеллектуальный анализ медицинских данных с использованием кейсовой техно­логии // Врач и информ. технологии. 2016. № 1. С. 54-59.

6. Тишков А.В., Каменева М.Ю., Гладской А.А., Гунченко А.И. и др. Применение деревьев решений для интерпретации нарушений механики дыхания и легочного газообмена // Вестник ТвГУ. Серия "Био­логия и экология". 2013. № 29. С. 264-271.

7. Методы построения деревьев решений в задачах классификации Data Mining. Режим доступа https://www.ami.nstu.ru/~vms/lecture/data_mining/trees.htm. Дата обращения: 28.04.2017.

8. Прикладная программа Rapid Miner. Режим доступа: https://rapidminer.com/products/studio/. Дата об­ращения: 16.06.2016

9. Data mining : concepts and techniques / Jiawei Han, Micheline Kamber, Jian Pei. 3rd ed. 2012.

Рецензирование