Дипломна работа

Създаване на система за откриване на чуждици в българския език чрез използване на фонемични вграждания | Защитена на: 01/01/1900

В днешно време чуждиците са навсякъде в нашия език - от всекидневната ни реч, през работната ни среда, даже и в официалните ни медии. Но какво всъщност е "чуждица"? Чужди думи от други езици постоянно навлизат в българския език, това е част от естественото развитие на един език. Има два начина по които тези чужди думи навлизат - те дават наименование на понятие, за което няма дума на български, или заместват понятие, за което вече имаме дума на български. Тези чужди думи, за които няма еквивалент на български се наричат "заемки", докато думите за които има еквивалент на български, се наричат "чуждици".

За българският език съществуват само речници на чуждите думи, но не и автоматичен класификатор на чуждиците. Целта на тази диплломна работа е да се разработи система за автоматично откриване на чуждици в български изречения, чрез използване на фонемични вграждания. Фонемичните вграждания моделират как звучи дадена дума, а чуждиците звучат различно от българските думи. Системата ще използва класификатор, който спрямо тези фонемични вграждания,  ще предсказва към кой език принадлежи дадената дума.

За целта са създадени два модела - един за автоматични генериране на транскрипции. Моделът приема като вход дума на български език и генерира нейната транскрипция. От този са изведени вграждания, които моделират звученето на думата. Тези вграждания за използвани за класификация на пароними, както и за откриване на чуждици. Моделът за генериране на транскрипции се справя правилно в над 99% от случаите.

Вторият модел има за цел да класифицира езика на произход на дадена дума, чрез използването на фонемичните вграждания. Моделът приема дума, намира вгражданията на думата и класифицира езиците на произход. Моделът е сравнен с множество системи за класифициране на чуждици, като се справя на подобно ниво спрямо ChatGPT 4o, който е много по-голям модел.

Създадена е и уеб система за класифициране на чуждици, чрез която други приложения могат да подават изречения и да получат списък от чуждици и езиците на произход.

Scroll to Top