Computer model for solving classification problems in a software environment Rapid Miner

AbstractThe development of information technology and modern communications, the emergence of a large number of automated medical devices and computers in clinics has led to a significant increase in medical-specialized information and biomedical data. Methods and technologies data analysis Data Mining lets identify a number of hidden patterns and relationships between data of various nature. The decision rules obtained in the classification contain new medical knowledge. Statistical quality control of diagnostic tests with binary outcomes showed that a computer classification model can be used to construct diagnostic algorithms for diseases. The construction of model for solving classification problems in a software environment Rapid Miner in practical classes develops information and technological competencies, ensures the development of competences for making practical decisions in the real conditions of professional activity.

Keywords:• decision tree • solving classification problems • Rapid Miner • practical classes

Meditsinskoe obrazovanie i professional’noe razvitie [Medical Education and Professional Development]. 2017; (2-3): 24–33.

Современный этап развития общества характеризуется экспоненциальным ростом количества накопленной информа­ции. В течение длительного времени в ин­формационных системах медицинских учреждений создавались электронные архивы историй болезни, компьютерные средства диагностики и тестирования па­циентов, системы анкетирования и многое другое. Однако для извлечения из нако­пленных данных полезной информации знаний требуется их определенная об­работка, которая поможет существенно расширить границы применимости на­учных результатов. Методы и технологии анализа данных Data Mining выявляют неочевидные, объективные и полезные за­кономерности различного типа. Интеллек­туальный анализ данных Data Mining по­зволяет проводить глубокое исследование и обнаруживать в данных ранее неизвест­ные, практически полезные и достаточно интерпретируемые связи [2]. Основные методы интеллектуального анализа дан­ных базируются на статистике, машинном обучение и теории баз данных, а наиболее часто используемые методы интеллекту­ального анализа данных - классификация и кластеризация.

Статистические алгоритмы классифика­ции основаны на априорных предположени­ях о виде плотностей распределения классов (байесовское решающее правило, линейный дискриминант Фишера, ЕМ-алгоритм). Ме­трические алгоритмы основаны на форма­лизации понятия сходства между объектами и гипотезе компактности (методы ближай­ших соседей, потенциальных функций, ра­диальных базисных функций). Алгоритмы классификации можно построить на осно­вании индукции правил (rule induction, rule learning) или индуктивного вывода логиче­ских закономерностей [7].

Отметим, что одним из наиболее попу­лярных методов решения задач классифи­кации является метод деревьев решающих правил или деревьев принятия решений.

Алгоритмы интеллектуального анализа данных реализуются фирмой Microsoft в табличном процессоре Excel, где для ана­лиза данных добавляется вкладка "Анализ". Компания Palisade поставляет комплекс­ный пакет Decision Tools Suite, в состав ко­торого входит Precision Tree. Данный пакет также встраивается в табличный процес­сор Excel. Создавать деревья решений воз­можно и в Microsoft Visio профессиональ­ный 2013. Результат работы See5 системы See5/C5.0 компании RuleQuest выражается в виде деревьев решений и множества пра­вил if. then. Программа для построения деревьев решений AnswerTree входит в со­став пакета SPSS.

Рассмотрим технологию построения компьютерной модели классификации био­медицинских данных методом деревьев при­нятия решений на примере бесплатно рас­пространяемой программы Rapid Miner [8].

Цели проведенного исследования - соз­дание компьютерной модели классифика­ции биомедицинских данных и выявление правил принятия решений в программной среде Rapid Miner.

Для достижения данной цели были по­ставлены следующие задачи:

- построить компьютерную модель клас­сификации и анализа результатов на примере оценки комплексного функ­ционального исследования внешнего дыхания;

- проанализировать эффективность построенной компьютерной модели классификации.

Дерево решений - это способ представ­ления правил в виде иерархического графа. В состав дерева решений входят узлы, содержащие правила проверки зависимых атрибутов и разбиения выборки данных на разные классы, листья, не содержат ветвления и являются конечными узлами дерева, именно листья определяют при­надлежность к одному из диагностических классов. Атрибуты или показатели, вы­бранные в соответствии с условием и наи­лучшим образом разбивающие выборку на разные классы, располагаются выше в дереве. Таким образом, наиболее инфор­мативный показатель с точки зрения раз­биения выборки на подклассы, находится в вершине дерева [6] и является корнем дерева или корневым узлом. Корень дерева не имеет входных ветвей. Дерево решений может быть представлено в виде логиче­ских высказываний или правил, где каж­дое правило отражает путь из корня в лист и описывается логическими цепочками условий. Качество построенного дерева характеризуют такие показатели, как точ­ность и сложность. Под точностью дерева понимается точность разделения объектов на диагностические классы. Сложность дерева определяется числом листьев дере­ва и его внутренних узлов, а также макси­мальной длиной пути из корня в лист [1].

В программе Rapid Miner процесс классификации данных методом "Дерево решений" состоит из двух этапов: этапа обу­чения, в котором обучающая выборка ана­лизируется относительно целевых атрибу­тов - листьев дерева и непосредственно классификации, в этом случае тестовые данные используются для оценки точ­ности создаваемых правил классифика­ции. Если точность является допустимой, правила применяют для классификации новых наборов данных [9]. Для повыше­ния качества классификации используют кросс-валидацию, разбивающую выборку на N групп, причем каждая группа один раз участвует в классификации (тестировании) и (N - 1) раз в обучении. В результате мож­но оценить количество правильно и не­правильно классифицированных объектов при помощи таблицы ошибок.

Следует отметить, что в качестве меры информативности в программе Rapid Miner обычно используют следующие па­раметры построения дерева: information gain (вычисляется энтропия всех атрибу­тов в соответствии с формулой Шеннона, атрибуты с минимальной энтропией рас­щепляются); gain ratio (задает диапазон и степень однородности для каждого атри­бута, усечение дерева производится путем замещения целого поддерева листом); gini index (индекс Джини, задает при необхо­димости меру добавления, создает развет­вления дерева по бинарному разделению), accuracy (оценивает точность атрибутов при разветвлении и максимальную точ­ность всего дерева).

Закономерности в виде правил, предо­ставляемые деревом решений, могут при­меняться в научных исследованиях для по­иска нестандартных медицинских случаев и их дальнейшего анализа [6]. Например, результаты комплексного функционально­го исследования внешнего дыхания после технологии анализа методом "Дерево реше­ний" можно использовать для построения алгоритмов диагностики заболеваний лег­ких.

Подробное построение модели при­нятия решений в прикладной среде Rapid Miner описано в методическом кейсе [5].

В качестве исходных данных для по­строения модели взяты данные спироме­трии у пациентов с нарушениями здоровья, оценку степени и выраженности наруше­ний условно обозначаемыми Д1, Д2, Д3. Исследования проводились в течение не­скольких лет и из собранной базы данных рандомизированно выбрано 277 пациен­тов. Такой выбор оптимален для решения учебных задач в программной среде Rapid Miner различными методами классифика­ции, например, дерево решений, нейрон­ная сеть. Источником получения знаний при решении учебных задач является вы­полнение практической работы, которая всегда имеет ограничение по времени.

Выбранные пациенты распределились в зависимости от пола: 113 мужчин и 164 женщины со средним возрастом 47 лет. Исходное распределение по степени и вы­раженности нарушений дыхания можно представить следующим образом: Д1 - 47 пациентов; Д2 - 115 пациентов; Д3 - 115 пациентов. Традиционно при интерпрета­ции результатов легочных функциональ­ных тестов используют должные величины, разработанные Р.Ф. Клементом. Количе­ственные результаты спирометрии, оцени­ваемые с помощью должных величин [6] и участвующие в построении дерева реше­ний, сведены в табл. 1.

Вышеперечисленные показатели спи­рометрии загружаются в репозиторий, далее следует машинное обучение и те­стирование, затем оценка точности классификации и анализ построенного дерева решений. В процессе загрузки задается тип численных (numeric, integer, real) и каче­ственных (nominal, binominal, polinominal) данных. В качестве целевых атрибутов - листьев выбираются степень и выражен­ность нарушений Д1, Д2, Д3 (diagnosis).

В программе Rapid Miner все операторы получают исходные данные на входе, по­сле этого выполняется алгоритм оператора (дерево решений, нейронные сети) и на выходе оператор выдает некий результат.

Компьютерная модель классификато­ра и анализа данных строится на рабочем столе программы Rapid Miner в виде по­следовательной цепочки операторов и за­тем запускается на выполнение (рис. 1). С помощью оператора Retrive загружают­ся входные данные из репозитория для последующей классификации и анализа. Следующий оператор, Set Role, выделяет целевые атрибуты Д1, Д2, Д3, относитель­но которых будет проведена классифика­ция. Данный оператор можно исключить, если назначение целевых атрибутов было проведено на этапе загрузки данных в репозиторий. Оператор Select Attributes по­зволяет отделить атрибуты, которые не рекомендуется использовать при проведении классификации, в данном случае patID. Оператор Validation содержит 2 внутренние панели: обучения (traning) и тестирования (testing). На левую панель помещается опе­ратор Decision Tree, для которого задаются различные критерии построения, на пра­вой панели размещаются операторы Apply Model, строящий модель дерева принятия решений, и Perfomance, оценивающий ка­чество классификации данных и правил построения дерева решений.

Для того чтобы избежать ошибочных оценок на рабочий стол необходимо до­бавить еще несколько операторов: Retrive, Set Role, Select Attributes, Apply Model, Rule Model. В этом случае появляется возмож­ность оценить точность построения дере­ва принятия решений на тестовом наборе данных, который не использовался для об­учения модели, при этом точность умень­шается на 3-5%.

Оператор Rule Model выводит набор правил классификации входных данных (рис. 2) на основе вычисленной энтропии всех атрибутов для последующего разде­ления выбирается атрибут с минимальной энтропией.

Представленный набор правил клас­сификации показывает, что оператор Rule Model исключил из анализа 3 пациентов, из оставшихся 274 пациентов в построении правил классификации участвовали толь­ко 242. Входные данные 35 пациентов Rule Model не смог классифицировать, и это требует дальнейшего изучения. В конце каждой строки представленных правил в скобках показаны значения прогнозиру­емых атрибутов-листьев в следующей по­следовательности: Д2, Д1 и Д3. Например, при условии, что полный объем легких ≤0,805 и индекс Генслера >0,832, степень и выраженности нарушений Д1 прогнози­руется у 68 пациентов, Д2 - у 2, Д3 - у 3. На рис. 2 полужирным шрифтом выделены максимальные значения для прогнозируе­мых нарушений по каждому логическому условию. В 3-й строке указан возраст вме­сте со стандартным отклонением для нару­шений Д1, Д2 и Д3 - 36,496+6,718. Следо­вательно, уже при поверхностном анализе правил классификации могут быть обна­ружены скрытые закономерности и связи. Например, на степень и выраженность на­рушений Д1 оказывает влияние объем фор­сированного выдоха за 1 с, для Д2 важное значение имеет возраст пациента (<43 лет) и объем форсированной жизненной ем­кости легких, при Д3 следует обратить внимание на значение жизненной емко­сти легких. Все перечисленные показате­ли индивидуальны для каждого пациента. Информативность спирометрии в диагно­стике механики дыхания приведена в [4]. Общее количество прогнозируемых нару­шений: Д1 - 47 пациентов; Д2 - 46 паци­ентов и Д3 - 114 пациентов. Таким обра­зом, Д2 не определяется с помощью правил классификации, следовательно, можно порекомендовать исключить возраст па­циентов при проведении классификации с помощью предложенной компьютерной модели и повторно провести исследование.

Набор правил классификации входных данных отличается от набора правил по­лученных после построения дерева приня­тия решений (рис. 3). Алгоритм, лежащий в основе оператора Decision Tree, рассма­тривает все данные, поданные на вход в со­ответствии с выбранным критерием по­строения, выбирает наиболее значимые среди них, и только эти атрибуты участвуют в построении дерева. В этом случае проис­ходит обрезка листовых узлов, в которых не выполняются определенные условия, на­пример, которые меньше порогового значе­ния или допускают частоту ошибок >50%. Пороговое значение и частота ошибок под­считывает алгоритм оператора. Построить полное дерево решений можно при любых критериях построения. На рис. 3 приведен пример правил классификации методом де­рево решений с критерием gain ratio.

Дерево решений классифицировало всех пациентов с предполагаемыми нару­шениями: Д1 (115 пациентов), Д2 (47 паци­ентов) и Д3 (115 пациентов). Часть пациен­тов с Д2 классифицирована как пациенты с нарушениями Д1. Пациенты с наруше­ниями Д3 классифицированы полностью. После сравнения наборов правил класси­фикации можно отметить, что при полном объеме легких >0,805 метод дерево реше­ний прогнозирует нарушения Д3, в отли­чии от Д2, определяемого оператором Rule Model. Также заметим, что прогнозируемое нарушение в усеченном дереве решений не зависит от пола пациента и отношения диффузионной емкости легких к альвео­лярному объему. Но, к сожалению, такое дерево не может устанавливать предвари­тельный диагноз, поскольку не содержит информацию о других диагнозах пациен­тов, хотя его структура интересна сама по себе и может послужить основой для гипо­тез и дальнейших исследований [6].

Для улучшения качества классифика­ции, распознавания и прогнозирования, а также для получения устойчивых законо­мерностей (устойчивость - повторение ре­зультатов) может быть использована про­цедура построения леса деревьев решений [3]. Деревья строятся с различными кри­териями, но по разным выборкам. Каждая новая выборка получается из предыдущей путем уменьшения атрибутов входных дан­ных. Максимальное количество деревьев, входящих в лес, достигает log2D + 1, где D - количество входных атрибутов описы­вающих объект.

В созданной компьютерной модели классификации можно построить 16 де­ревьев решений без изменения входных атрибутов. Примеры построенных дере­вьев решений с различными критериями сведены в табл. 2.

Качество классификационной модели, построенной при помощи дерева решений, оценивается точностью распознавания и ошибкой. Точность распознавания - от­ношение объектов правильно классифи­цированных в процессе обучения к обще­му количеству объектов массива данных, которые принимали участие в обучении. Ошибка - отношение объектов непра­вильно классифицированных в процессе обучения к общему количеству объек­тов массива данных, которые принимали участие в обучении. В соответствии с по­строенной таблицей результатов можно предположить, что наиболее оптимальным является дерево решений с критерием по­строения gain_ratio, таблица точности ко­торого показана на рис. 4. Дерево счита­ется оптимальным, если оно использует информацию улучшающую качество моде­ли и игнорирует иную информацию.

Данное дерево имеет наибольшую точ­ность построения и 6 различных ветвей ведущих к листьям, прогнозируемым на­рушениям Д1, Д2 или Д3. При этом основ­ными узлами являются жизненная сила легких, форсированная жизненная сила легких, объем форсированного выдоха за 1 с. Все перечисленные показатели измеря­ются с помощью спирометра и на их основе вычисляются ticpred, fev1fvc, vapred. Оценка результатов однократного исследования отражает только те нарушения, которые имели место во время исследования.

Согласно рис. 4, дерево решений имеет общую точность классификации 71,49%. Верно распознает Д1 в 72%, Д2 в 21% и Д3 в 91% случаев. Верно предсказывает Д1 в 86% случаев, Д2 в 59% и Д3 в 64% случа­ев. На основании рис. 4 составим таблицу ошибок 2x2 (табл. 3) и рассмотрим 2 клас­са: "точн_рапозн" и "ошибка". В этом слу­чае можно говорить о чувствительности и предсказательности дерева решений как метода диагностики.

После проведенного анализа (рис. 4), видно, что нарушения прогнозируются у 83+10+105=198 пациентов, не точно по­ставлена степень и выраженность нару­шений у 5+32+5+27+2+8=79 пациентов. Прогнозируемый Д1 есть у 5 пациентов, а дерево решений распознает его как Д2, но и распознанный Д1 есть у 5 пациентов с прогнозируемым Д2. Прогнозируемый Д1 есть у 27 пациентов с распознанным Д3, но распознанный Д1 есть у 8 пациентов с про­гнозируемым Д3. Также прогнозируемый Д2 есть у 32 пациентов, у которых с дерево решений распознает Д3, однако классифи­цированный Д2 прогнозируется у 2 паци­ентов с Д3. Таким образом, мы получаем, что 19+30=49 пациентов имеют предпо­лагаемую степень нарушений, но не рас­познаются методом классификации дерево решений.

Показателями качества диагностиче­ского теста являются вероятностные по­казатели распознавательной и предсказа­тельной способности. Чувствительность есть условная вероятность положительных результатов диагностического теста (T+) распознавать предполагаемые наруше­ния (D+). Предсказательность позитивов является условной вероятностью верного предположения положительных результа­тов наличия предполагаемых нарушений при условии получения положительного результата теста.

Полученное значение чувствительно­сти 0,799 вместе с доверительным интер­валом [0,730; 0,86] является статистически значимо на уровне доверия 99%, так не включает неинформативное значение 0,5. Предсказательность позитивов 0,99 вме­сте с доверительным интервалом [0,97; 1] статистически высоко значимо на уровне доверия 99%, так как не перекрывается с распространенностью 0,89, имеющей до­верительный интервал [0,84; 0,93], и не со­держит неинформативное значение 0,5.

При полученных значениях точности построенной компьютерной модели и ее предсказательной способности можно использовать построенную модель клас­сификатора и его результаты, правила классификации, для уточнения функцио­нальных особенностей легких, построе­ния алгоритмов диагностики заболевания легких, в ранней диагностике, a также для дальнейших исследований и построения гипотез. Кроме того, спирометрия явля­ется основным средством диагностики и количественной оценки не только самых различных легочных расстройств, но и других болезней дыхательной, сердечно­сосудистой, нервной систем и опорно-двигательного аппарата. Традиционно врач проводит анализ результатов исследований в зависимости от определяющих факторов (по возрасту, полу и физическим навыкам пациента). Для расчета должных величин он выполняет сопоставление полученных величин с их нормами, границами, града­циями и относительной степенью отклоне­ния. Предложенная компьютерная модель решения задач классификации помогает провести анализ результатов спирометрии с помощью программных средств.

Практические методы обучения осно­ваны на практической деятельности уча­щихся, этими методами формируют прак­тические компетенции студентов. Метод моделирования позволяет использовать интегрированный подход при проведении практических занятий и осваивать компе­тенции в индивидуальном темпе. Следует отметить, что средства информационных и компьютерных технологий активизируют учебно-познавательную и исследователь­скую деятельность студентов. Построение компьютерной модели классификации на практических занятиях обеспечивает от­работку компетенций принятия практи­ческих решений в реальных условиях про­фессиональной деятельности

Все вышеизложенное позволяет сде­лать следующие выводы:

1. Компьютерная модель классифика­ции в программе Rapid Miner проводит анализ результатов спирометрии и фор­мирует правила решений, которые мож­но использовать при создании алгорит­мов диагностики заболеваний на ранней стадии.

2. Полученная модель классификации помогает определить прогноз или риск развития заболевания в зависимости от ко­личественных результатов спирометрии.

3. Построение компьютерной модели классификации в среде Rapid Miner раз­вивает информационно-технологические компетенции, компетенции анализа и принятия решений.

4. Рассматриваемый пример комплекс­ного функционального исследования внеш­него дыхания можно дополнительно рассмо­треть на примере построения леса деревьев решений и отработать методику анализа по­лученных результатов.

Литература

1. Берестнева О.Г., Муратова Е.А. Построение логических моделей с использованием деревьев решений // Известия Томского политех. универ. 2004. Т. 27, вып. 2. С.154-159.

2. Дюк В., Самойленко Л. Data Mining: учебный курс. СПб. : Изд. Питер, 2001. 368 с.

3. Дюк В., Эммануэль В. Информационные технологии в медико-биологических исследованиях. СПб. : Питер, 2003. 528 с.

4. Каменева М.Ю., Трофимов В.И., Тишков А.В. Информативность спирометрии в диагностике на­рушений механики дыхания у больных интерстициальными заболеваниями легких // Бюл. физиол. и патологии дыхания. 2015. № 66. С. 8-14.

5. Никонорова М.Л. Интеллектуальный анализ медицинских данных с использованием кейсовой техно­логии // Врач и информ. технологии. 2016. № 1. С. 54-59.

6. Тишков А.В., Каменева М.Ю., Гладской А.А., Гунченко А.И. и др. Применение деревьев решений для интерпретации нарушений механики дыхания и легочного газообмена // Вестник ТвГУ. Серия "Био­логия и экология". 2013. № 29. С. 264-271.

7. Методы построения деревьев решений в задачах классификации Data Mining. Режим доступа https://www.ami.nstu.ru/~vms/lecture/data_mining/trees.htm. Дата обращения: 28.04.2017.

8. Прикладная программа Rapid Miner. Режим доступа: https://rapidminer.com/products/studio/. Дата об­ращения: 16.06.2016

9. Data mining : concepts and techniques / Jiawei Han, Micheline Kamber, Jian Pei. 3rd ed. 2012.