Информационна система за дипломанти - Катедра Софтуерни технологии

Дипломна работа

Предсказване на МКБ-10 кодове на диагнози от клинични текстове | Защитена на: 01/01/1900

Задачата за предсказване на множество кодове от Международната класификация на болестите, 10-а ревизия (МКБ-10) на диагнози от клинични текстове на български език е от важно значение за медицината в днешно време. Това включва подпомагането на ежедневната работа на лекарите по подготовката и отчитането на клинична документация. Автоматизирането на този процес би довело до спестяване на време от страна на лекарите, което би им позволило да се фокусират повече върху грижите за пациентите им. Целта на дипломната работа е да се разработи метод и прототип на софтуерен инструмент за предсказване на множество от МКБ-10 кодове на диагнози от кратки клинични текстове на български език.

Клиничните текстове, с които ще се разработва системата, са данни от анонимизирани епикризи на пациенти с левкемия. Корпусът, с който ще се проведе експеримента съдържа на всеки ред две колони – в едната се намира МКБ-10 код на диагноза, а в другата колона – клиничния текст за тази диагноза, изваден от епикризата. От всяка епикриза се взимат МКБ-10 кодовете, описани в диагнозата и се асоциират с клиничния текст от тази епикриза, включващ всички секции от “Диагноза” до “Съпътстващи заболявания”.

За задачата за предсказване на МКБ-10 кодове на диагнози от клинични текстове са проведени експерименти с два BERT модела – MBG-ClinicalBERT и MBG-MultilingualBERT. За всеки BERT модел се правят по три експеримента, с различни части на една епикриза – диагноза, диагноза и анамнеза и цялата епикриза, за да се изследва как се справя всеки един от моделите при различна дължина на текста и най-вече информацията, която се съдържа в него. Като метрики за оценка са използвани - Макро F1 (Macro-F1) оценка, ROC AUC (Area Under the Receiver Operating Characteristic Curve) оценка и MAP (Mean Average Precision) оценка. Резултатите на двата модела са сравнително близки, като все пак в експериментите включващи само частта с диагнозите от епикризата и цялата епикриза, MBG-ClinicalBERT постига по-добри резултати от MBG-MultilingualBERT относно MAP (Mean Average Precision) оценката – 0.44 срещу 0.38 за частта с диагнозите и 0.47 срещу 0.44 за цялата епикриза. При експеримента с частите за диагнозите и анамнезата от епикризата, MBG-MultilingualBERT постига по-добър резултат – 0.40 срещу 0.37 относно MAP оценката.

Използвайки изследваните методи е разработена система, която може да връща множество от МКБ-10 кодове при подаден кратък клиничен текст. Списъкът от МКБ-10 кодове в последствие може да бъде използван от лекарят за попълване на коректната информация за дадена диагноза и за проверка на вече попълнени диагнози с МКБ-10 кодове, за да валидира дали кодовете отговарят на дадена диагноза и са попълнени правилно.