Дипломна работа

Извличане на информация от медицински текстове на български език | Защитена на: 01/01/1900

            Автоматичното извличане на термини от медицински текстове е задача с огромно значение. Решаването ѝ би подпомогнало извличането на информация от неструктуриран текст в структуриран вид. Това улеснява анализа на данните и откриването на различни закономерности и тенденции в тях. Резултатите от тези анализи ще подпомогнат здравеопазването, давайки възможност за откриването на влиянието на лекарства, превенция на заболявания, ранна диагностика и други.

            Целта на дипломната работа е да се разработи прототип на система за разпознаване и извличане на медицински понятия от клинични текстове на български език, които принадлежат на една от следните категории: симптоми, оплаквания, анатомични органи и системи, рискови фактори, фамилна обремененост. Също така системата трябва да разпознава връзки между симптоми, оплаквания и анатомични органи и системи, както и да открива отрицания на оплаквания и симптоми.

            В дипломната работа е разработена система за автоматичното разпознаване и извличане на термини от медицинската област в текстове на български език. Термините, които тя разпознава, са: симптоми, оплаквания, рискови фактори, фамилна обремененост, липса на симптоми, липса на оплаквания и липса на рискови фактори. За реализацията е използван езикът Python.

            Съществуват различни подходи за разпознаване на обекти в текст. Основните видове са: основани на речници, основани на правила, използващи машинно самообучение със или без учител. Използваният в тази дипломна работа подход за анализиране и извличане на медицински понятия е смесен – използва едновременно речници и правила. Идеята на метода е да се намерят по-простите обекти чрез речници и после, с помощта на правила, да се намерят връзките между отделните обекти и да се идентифицират търсените понятия. Бяха планирани и проведени няколко експеримента, при които системата беше оценена. Постигната беше средната оценка на прецизност - 0,982, пълнота - 0,803 и F1 мярка - 0,883. Анализът на резултатите от експериментите показва, че системата е силно зависима от пълнотата на речниците, които ползва. За да може системата да се развива, беше създадено допълнение към нея, което служи за попълване на речниците на база на запазените от потребителя анотирани текстове. Затруднения за системата представляват правописните грешки, съкращенията и изреченията, построени извън общоприетите граматически норми. 

Scroll to Top