Использование ROC-анализа для оценки эффективности обучения студентов

Резюме

Методы описательной статистики и ROC-анализа позволяют количественно оценить динамику учебного процесса. В статье рассматривается задача прогнозирования результатов обучения студентов по дисциплине на основе результатов обучения по отдельному модулю. В качестве прогностической модели, построенной в прикладной среде RapidMiner, использованы ROC-кривые.

Ключевые слова:ROC-анализ, точка отсечения, RapidMiner, алгоритмы классификации

В информационном обществе развитие системы оценки качества образования связано с выявлением соответствия реализуемой технологии обучения и проведения корректирующих педагогических действий. Условие совершенствования качества образования - своевременный рефлексивный анализ педагогической деятельности [1]. Для анализа результатов образовательного процесса весьма востребованы методы и средства статистической обработки, которые позволяют оценить динамику учебного процесса. Как показывает практика, ROC-анализ как один из методов статистического анализа позволяет не только сравнить результаты различных исследований, но и оценить взаимосвязи. При проведении ROC-анализа строится ROC-кривая (receiver operating characteristic), определяющая качество бинарной модели классификации на основе найденной точки отсечения количественного признака. Согласно этому, ROC-кривая позволяет оценить информативность баллов по модулю "Статистика" по отношению к общим итоговым баллам по дисциплине "Медицинская информатика", реализуя таким образом прогностическую модель. При построении ROC-кривой ось ординат соответствует вероятности истинно положительных результатов (чувствительность), а ось абсцисс - вероятности ложноположительных результатов (1 - специфичность). Положительный результат события оценивается итоговым баллом больше или равным 74. Чувствительность есть условная вероятность положительных результатов события (T+) распознать предполагаемые положительные результаты (D+). Специфичность есть условная вероятность отрицательных результатов события (T-) распознать предполагаемые отрицательные результаты (D-). Отрицательный результат события соответствует итоговому баллу меньше 74. Для количественной оценки информативности используется сравнительный анализ площадей под ROC-кривыми (Area under ROC curve - AUC). Принято считать, что коэффициент площади кривой, лежащий в интервале 0,9-1, следует рассматривать как показатель наивысшей информативности диагностического метода, в интервале 0,8-0,9 - хорошая информативность, в интервале 0,7-0,8 - удовлетворительная, в интервале 0,6-0,7 - посредственная информативность, и ниже - бесполезная классификация. ROC-анализ позволяет выбрать оптимальное пороговое значение балла (cut-off value) и оценить прогностическую способность классификации.

Анализ сравнения наиболее распространенных статистических программ ROC-анализа достаточно подробно рассмотрен в статье "Сравнение компьютерных программ для проведения описательной статистики и ROC-анализа" [2]. Для построения характеристической кривой и проведения статистического анализа выберем прикладную программу RapidMiner. Преимущества программной среды RapidMiner описаны в статье "Интеллектуальный анализ медицинских данных с использованием кейсовой технологии" [3]. В статистических пакетах SPSS, NCSS, Statistica, язык и программная среда R, Metabo-Analyst, EasyROC [4] можно построить ROC-кривые и оценить надежность обучения студентов, но, как отмечал в своих работах K.A. Spackman [6], в процессе постановки задачи построения ROC-кривых в компьютерной среде RapidMiner сравниваются несколько алгоритмов классификации, и точность бинарного классификатора соответствует точности лучшего классификатора.

Рассмотрим локальную задачу экспериментальной проверки влияния обученности (оценки в баллах) студентов по модулю "Статистика" на итоговый балл по дисциплине. Следует отметить, что, в общем, под обученностью понимается готовность к статистической обработке данных при решении задач предметной области и различного уровня сложности, а также владение необходимыми информационно-технологическими компетенциями. На практических занятиях по модулю "Статистика" используются современные способы автоматизированной статистической обработки данных, в частности, студенты знакомятся со следующими прикладными программами: DiagStatRus, PAST, Insert+, ESCI-PPS-p-intervals.xls, Bayes Factor Calculators, LePrep, G*Power, LePac. Уровень информационно-технологических компетенций определяет практический опыт решения профессиональных задач.

Цель исследования: анализ и оценка взаимосвязи процесса обучения студентов по модулю "Статистика", имеющих итоговую оценку "хорошо" и "отлично", с результатами изучения дисциплины "Медицинская информатика".

Для достижения данной цели были поставлены следующие задачи:

  • выделить студентов, получивших итоговую оценку по "Медицинской информатике" "хорошо" и "отлично" с помощью характеристической кривой ROC-curve;
  • определить пороговое значение или точку отсечения баллов по модулю "Статистика", характеризующую разделение студентов, обучающихся на "хорошо" и "отлично", от остальных при условии, что студенты имеют итоговый балл по дисциплине не ниже "хорошо";
  • провести анализ итоговых баллов студентов по дисциплине с учетом порогового значения баллов по модулю "Статистика".

Методы. На основе анализа научно-технической литературы по тематике исследований, анализа научно-педагогического опыта обучения, а также наблюдений за ходом учебного процесса и деятельностью студентов, выраженных в оценочных баллах, построение прогностической модели дальнейших результатов обучения и оценка ее эффективности. Исходные данные: итоговые баллы студентов II курса Стоматологического факультета и I курса факультета "Лечебное дело" в 2017/2018 учебном году по дисциплине "Медицинская информатика". Второй семестр обучения включает 3 модуля, один из которых относится к теме "Статистика". В каждом модуле 3 практических занятия и одно контрольное, состоящее из тестовых заданий по теме в режиме онлайн и решения контрольных задач. Общий балл по дисциплине учитывает баллы, полученные студентами в первом семестре обучения, и как итог обучения за 2 семестра в зачетную книжку ставятся "зачет" и итоговый балл. Выставление баллов за обучение осуществлялось в соответствии с балльно-рейтинговой системой, принятой на кафедре физики, математики и информатики в текущий момент. Общее число студентов, участвующих в исследовании, - 150. Статистический анализ итоговых баллов (итог_баллы), суммарных баллов по модулю "Статистика" (итог_стат), баллов за контрольный тест и контрольную работу (стат_кт), баллов за 3 практических занятия по модулю "Статистика" (стат_практ) приведен в табл. 1. Поле "оценка" позволяет отделить студентов, которые учатся на "4" и "5" или имеют итоговый балл больше или равный 74 от всех остальных, в этом случае значение поля будет равно "0".

Визуальное sticks-представление баллов обучающихся - итоговых по дисциплине и итоговых по модулю "Статистика" - показано на рис. 1. Используя описательную статистику, визуально представим (рис. 2) итоговые баллы модуля "Статистика" (итог_стат), баллы по контрольным точкам и контрольному тестированию (стат_кт), баллы по практическим занятиям (стат_практ).

Следует отметить, что итоговые баллы по модулю "Статистика" не изменяются пропорционально в соответствии с итоговыми баллами по "Медицинской информатике". На основании построенного графика BoxPlot можно предположить, что баллы, полученные на практических занятиях, оказывают влияние на сдачу контрольного теста и решения контрольных задач, так как медиана и среднее значение вместе с доверительным интервалом (ДИ) одной выборки (стат_практ) включают медиану и среднее значение вместе с ДИ другой выборки (стат_кт) на уровнем значимости a=0,05.

Решить поставленные задачи позволяют следующие операторы компьютерной модели, построенной в прикладной среде программы RapidMiner:

Retrive - осуществляет загрузку данных;

Select Attributes - позволяет отделить атрибуты, которые не участвуют в классификации, например № пп, № группы, ФИО, от остальных;

Set Role - устанавливает роль атрибуту (label) для последующего анализа, например наличие общего балла по дисциплине больше или равного 74 (атрибут оценка);

Compare ROCs - генерирует ROC-кривые, созданные во вложенном подпроцессе различными классификаторами. Сравнение базируется на средних значениях атрибутов после k-раз проведенной кросс-валидации. Этот оператор также можно использовать для внутреннего разделения заданного набора данных на тестируемую и обучаемую выборку. ROC-кривые вычисляются путем первого упорядочивания результатов классификации по достоверности. Прикладная программа RM предлагает 3 способа вычисления ROC-кривых: оптимистичный, нейронный и пессимистичный.

Оптимистичный: при существовании более одного результата достоверности все, кроме одного (максимального), учитываются при поиске неправильной ложной классификации. Пессимистичный: учитывается откорректированная классификация с учетом всех результатов. Нейронный метод вычисления объединяет оба предыдущих метода: истинные и ложные классификаторы учитываются поочередно.

Кроме того, этот оператор позволяет устанавливать следующие параметры: количество разбиений (number of folds), размер обучающей выборки (split ratio, при равном 1 вся выборка является обучающей), тип выборки (линейная, случайная, стратифицированная - случайное подмножество с одинаковой пропорцией 2 значений меток классов), вес данных (use example weights).

Cross Validation - выполняет перекрестную проверку и оценивает статистическую эффективность модели обучения. Оператор перекрестной проверки является вложенным оператором и имеет два подпроцесса: обучения и тестирования. В подпроцессе обучения для бинарной классификации лучше всего использовать оператор Meta-Cost с вложенным деревом решений Decision Tree, а в подпроцесс тестирования входят операторы Apply Model и Perfomance. При прохождении обученной модели через этап тестирования вычисляется точность построенной модели.

В параметрах оператора можно задавать пакетное разделение данных (split on batch attribute, true или false); разделение данных на n частей, из которых 1 часть используется для тестирования и n-1 частей - для обучения (leave one out, true или false); разделение данных на n частей (number of folds); параллельное выполнение перекрестной проверки (enable parallel execution), но этот параметр не используется, если оперативная память компьютера стандартна.

MetaCost - базовый классификатор, имеет вложенный процесс, где размещается оператор классификатор - дерево решений Decision Tree. Самостоятельно изменяя параметры вложенного оператора, Mеta-Cost создает заданное число моделей классификации для прогнозируемого атрибута label. При этом работа Meta-Cost рассматривается как "черный ящик" и не требуется никаких знаний о его функционировании. Оператор увеличивает точность построенной модели в 1,24 раза [5].

Изменяемые параметры оператора Meta-Cost: матрица весов для классов Cost Matrix (таблица 2×2), обычно вес устанавливается равным значению 0, но можно прогнозировать их значения; string = 1, следовательно, используется весь набор данных; iterations - задает максимальное число моделей классификации, построенных алгоритмом Meta-Cost, обязательно должно быть целое число, по умолчанию равно 10; sampling with replacement = true означает, что на каждом шаге может быть выбран любой атрибут с равной вероятностью.

Apply Model - строит модель дерева решений.

Performance - оценивает производительность построенной компьютерной модели, автоматически определяет тип задачи обучения и вычисляет наиболее распространенные критерии. Для задач биноминальной классификации вычисляются следующие критерии: точность (accuracy), точность предсказания (precision), точность распознавания (recall), AUC (оптимистичный), AUC (нейтральный), AUC (пессимистичный).

Компьютерная модель основного процесса ROC-анализа приведена на рис. 3.

Вложенный подпроцесс, создаваемый в операторе Compare ROCs, с классификаторами k ближайших соседей (k_NN), нейронная сеть (Neural Net) и наивный Бейз (Naive Bayes) показаны на рис. 4.

Исходные данные (табл. 1) загружаются в репозиторий из программы Excel и подключаются к оператору Retrive. После запуска построенной компьютерной модели и прохождения всего процесса на выходе получаем ROC-кривые, построенные различными классификаторами; дерево решений, дающее пороговое значение баллов (cut off curve); таблицу точности построений, таблицу распознавания, таблицу прогноза и вычисленную площадь под AUC.

Результаты

После построения обучающей компьютерной модели устанавливаем целевой показатель, относительно которого проводим анализ - итог_баллы, присваиваем роль label атрибуту оценка и запускаем процесс. Получаем следующие выходные данные.

Таким образом, с точностью 100% разделены входные данные на 2 выборки: студенты, которые учатся на "хорошо" и "отлично" (98 студентов), и остальные студенты (52 студента). ROC-кривая имеет наивысшую информативность, порог отсечения равен 73,828 баллов, что отображено на рис. 6.

Рассмотрим тестируемую компьютерную модель. Для этого в операторе Select Attributes поменяем значимые атрибуты, добавим итог_стат и уберем итог_баллы. Следует отметить, что максимальный балл по модулю "Статистика" составляет 20 баллов, из которых в 8 баллов оценивается контрольное занятие и в 12 баллов - практические занятия. Зачетные минимальные баллы по контрольному занятию равны 2 баллам, по практическим занятиям - 3 балла. Таким образом, общий минимальный балл по модулю - 5 баллов. Запускаем новый процесс. Построенные ROC-кривые различных классификаторов представлены на рис. 7.

Можно отметить, что наиболее информативна кривая, построенная с помощью классификатора k-NN. В результате прохождения процесса получена следующая точность построения.

При точности построения ROC-кривой 75%, точность распознавания студентов, которые учатся на "хорошо" и "отлично", составляет 98,98% [97/(97+1)], точность предсказания, что студент будет учиться "удовлетворительно", составляет 93,75% [15/(15+1)]. Площадь под кривой AUC информативна, результаты вычисления порогового значения сведены в табл. 2.

Следует отметить, что некоторые студенты учатся на "хорошо" и "отлично" на занятиях по модулю "Статистика", но не имеют аналогичного общего балла по дисциплине (Model 1, Model 2, Model 3, Model 7, Model 8, Model 9, в таблице выделено синим цветом), что соответствует пороговому значению 8,5 балла. В то же время пороговое значение больше 11,5 балла, позволяет прогнозировать с точностью 75%, что студенты получат итоговый балл по дисциплине не ниже "хорошо".

При точке отсечения 11,5 специфичность мала [14/(14+23)=0,38], таким образом, превышение этого порога включает 92% студентов (90/98), которые учатся на "хорошо" и "отлично", но также 1% студентов, которые учатся "удовлетворительно". Чувствительность при этом высокая и составляет 90%, что означает, что полученная точка отсечения позволяет отбирать успешных студентов.

Введем в исходные данные дополнительный столбец оценки обученности студентов по модулю "Статистика" (оценка_ном), учитывая пороговое значение, равное 11,5. Считаем, что при итог_стат >11,5 студенты учатся на "4" и "5", и значение поля будет равно "0", иначе поле примет значение, равное "1". Запустим компьютерную модель, предварительно назначив роль label атрибуту оценка_ном с помощью оператора Set Role, установив значимые атрибуты в Select Attributes: добавим итог_баллы и уберем итог_стат.

Полученная точность построения ROC-кривой равна 89%, АUC имеет хорошую информативность. Заметим, что можно с точностью 80% предсказать дальнейшее обучение студентов. Точность распознавания итогового успешного обучения ("хорошо" и "отлично") соответствует 90%, точность прогноза, что именно этот студент получит аналогичный итоговый балл по дисциплине, составляет 93% [93/(93+7)].

Проведенный анализ педагогической деятельности позволяет выявить сильные и слабые компетенции обучающихся и провести коррекцию методического и информационного обеспечения учебного процесса.

Все изложенное выше позволяет сделать следующие выводы.

1. Можно утверждать, что построенная компьютерная модель в прикладной среде RapidMiner с точностью 100% отделяет студентов, имеющих итоговую оценку "хорошо" и "отлично" по результатам изучения дисциплины "Медицинская информатика", от остальных при пороге отсечения, равном 73,8 или 74 балла, что в конечном итоге реализует прогностическую модель результатов дальнейшего обучения.

2. По результатам тестирования построенной компьютерной модели (точность 75%, что соответствует высокой точности), используя в качестве входных данных итоговые баллы по модулю "Статистика", можно отметить, что найденный порог отсечения в 11,5 балла позволяет прогнозировать успешное обучение студентов.

3. Анализ итоговых баллов по модулю "Статистика" позволяет с точностью 89% определять студентов, которые получат итоговый балл не ниже "хорошо", и с точностью 80% прогнозировать дальнейшее обучение студентов.

Автор надеется, что результаты данной работы найдут широкое применение в исследованиях различных предметных областей.

Литература

1. Зинкевич Е.Р. Оценка качества образования студентов медицинских вузов // Вестн. ЮУрГУ. 2012. № 26. С. 87-90.

2. Кореновский Ю.В., Кудинов А.В., Сузопов Е.В., Поповцева А.В. Сравнение компьютерных программ для проведения описательной статистики и ROC-анализа // Медицина в Кузбассе. 2017. Т. 15, № 3. С. 40-44.

3. Никонорова М.Л. Интеллектуальный анализ медицинских данных с использованием кейсовой технологии // Врач и информ. технологии. 2016. № 1. С. 54-59.

4. Хромов-Борисов Н.Н. Биостатистические программы свободного доступа // Травматол. и ортопед. России. 2015. № 4. С. 154-159.

5. Прикладная программа RapidMiner. URL: https://rapidminer.com/products/studio/. (дата обращения: 04.07.2018)

6. Spackman K.A. Signal detection theory: valuable tools for evaluating inductive learning // Proceedings of the Sixth International Workshop on Machine Learning. San Mateo, CA : Morgan Kaufmann, 1989. P. 160-163.

References

1. Zinkevich E.R. Assessment of students’ education quality in medical universities. Vestnik YuUrGU [YuUrGU Bulletin]. 2012; (26): 87-90. (in Russian)

2. Korenovskiy Yu.V., Kudinov A.V., Suzopov E.V., Popovtseva A.V. Comparison of computer programs for descriptive statistics and ROC-analysis. Meditsina v Kuzbasse [Medicine in Kuzbass]. 2017; 15 (3): 40-4. (in Russian)

3. Nikonorova M.L. Data mining using case technology. Vrach i informatsionnye tekhnologii [Doctor and Information Technologies]. 2016; (1): 54-9. (in Russian)

4. Khromov-Borisov N.N. Free biostatistical software. Travmatologiya i ortopediya Rossii [Traumatology and Orthopedics of Russia]. 2015; (4): 154-9. (in Russian)

5. RapidMiner application program. URL: https://rapidminer.com/products/studio/ . (date of access July 4, 2018) (in Russian)

6. Spackman K.A. Signal detection theory: Valuable tools for evaluating inductive learning. In: Proceedings of the Sixth International Workshop on Machine Learning. San Mateo, CA: Morgan Kaufmann, 1989: 160-3.