Дипломна работа

Автоматичен коректор на правопис за медицински текстове на български език | Защитена на: 01/01/1900

Съществува огромно количество медицински текстове на български език, но поради спецификата на тези текстове, съществуващите стандартни коректори за обща лексика не се справят със специализираните медицински термини, съкращения и абревиатури. Целта на дипломната работа е да се разработи услуга за коригиране на текст, предназначена за медицински текстове на български език.

За целите на дипломната работа е използван корпус от анонимизирани клинични данни – изречения от анамнези и извадки от клинични статуси. Използвани са и речници с медицински термини за органи и системи от човешкото тяло, симптоми на заболявания, както и стандартен речник на българския език.

От корпуса с клинични данни, с помощта на речниците, са съставени разширен речник и списъци с биграми и стабилни лексикални конструкции.

Проверката на правопис се осъществява, като за всяка дума от текста се търси съответствие в речника. Ако думата липсва в речника, се предполага, че тя е може би грешно изписана и трябва да се създаде списък с предложения за нейната корекция.

При създаването на предложения за поправка на правопис са използвани подходи основани на метрики за разстояние между думи. За всяка дума, подлежаща на корекция, се разглежда и предходната дума, за да се търси правилно изписване в списъка със стабилни лексикални конструкции. Търсенето на подобни думи в речника се осъществява, първо чрез разстояние на Жакард със зададен максимален праг, за да се премахнат твърде различните предложения, и после чрез разстояние на Левенщайн, за да се подредят предложенията по близост до коригираната дума.

Като са използвани посочените методи, е разработена услуга за проверка и поправка на правопис, която предоставя потребителски интерфейс с автоматична проверка на правопис, както и програмен API интерфейс, чрез който може да се вгради в съществуващи приложения за обработка на текст.

Scroll to Top