Информационна система за дипломанти - Катедра Софтуерни технологии

Дипломна работа

Изследване и разработка на методи за създаване на синтетични клинични статуси | Защитена на: 01/01/1900

Клиничните записи играят решаваща роля в медицинските изследвания. Ежедневно се създават милиони данни за пациенти в текстов формат на различни езици. От друга страна, поради етични и правни проблеми, такива данни не могат да се споделят и има много ограничения за тяхното повторно използване, тъй като те съдържат лична информация. Има голяма нужда от инструменти за анализ на медицински записи и извличане на знание от тях, но това изисква наличието на големи корпуси от данни за обучение.

Основната цел е разработването на система за автоматично генериране на синтетични амбулаторни записи от реални данни в неструктуриран формат. Входните данни използвани за обучаване на моделите представляват двойка последователни изречения, извлечени от ананомизиран корпус от амбулаторни статуси на български език. Амбулаторните записи имат дефинирана структура и съдържат информация в свободен текст за „Анамнеза“, „Състояние на пациента“, „Лечение“, „Лабораторен тест“ и други. В настоящата дипломна работа е избрано да се генерират синтетични статуси само за раздел „Състояние на пациент“. Този раздел се състои от описание на текущото състояние на анатомичните органи и системи въз основа само на наблюдения и ръчни проверки. Размерът на корпуса от входни данни е около сто и шейсет хиляди двойки изречения. Този подход, използващ последователности от текст, позволява частично да се запази контекстът състоянието на пациента, а от друга страна да се предотврати изтичането на лични данни на пациента.

В дипломната работа е предложен иновативен подход за автоматично генериране на синтетичен статус на пациента, базиран на модел за задълбочено обучение и статистически модел-Логистична регресия. В ядрото на решението стои прецизно оптимизиран многоезиков модел за дълбоко самообучение BERT [1]. С цел оценка на разработения модел, е създаден статистически модел базиран на алгоритъмa логистична регресия, на база на който може да сравним резултатите от модела използващ дълбоко обучение. Двата модела са конфигурирани за задача от тип предсказване на следващо изречение и се базират на корпус от двойки изречения. Предложеният подход е за данни на български език, но може да се приложи на други езици.

За разлика от други методи за валидиране свободен текст или машинен превод, валидирането на генерираните синтетични статуси е по-специфично, тъй като изисква корпус от истински амбулаторни статуси. Подобен корпус не може да се използва поради наличието на лични данни. За целта се разработва корпус от синтетично генерирани статуси, валидирани от експерт, наречен „Златен стандарт“. Използват се широко разпространени алгоритми за оценка на машинен превод за оценяване на генерираните статуси спрямо статусите от корпуса „Златен стандарт“. Резултатите от експериментите предоставят сериозни доказателства, че предложеният подход може да генерира огромно разнообразие от валидни състояния на синтетични пациенти.