Дипломна работа

“Учене на многоезикови векторни представяния за близки езици и диалекти” | Защитена на: 01/01/1900

В условията на глобализация и цифровизация, все повече нараства нуждата от
системи, работещи с естествен език. Нараства и необходимостта те да работят добре
с повече от един език. Най-широко разпространеният отговор на това изискване се
състои в системи, работещи върху векторни представяния на думите. Те разчитат на
това, че думи от различни езици със сходни значения ще се намират близо и във
векторните си представяния.
Като естествено следствие от това, точността на един модел, обучен за един език,
върху произволен друг такъв, е пряко зависима от точността на векторното
представяне на думите от двата езика.
Такива векторни представяния традиционно се обучават независимо, като
съществува набор от вече обучени такива за множество езици. Този подход, обаче, не
взема предвид някои специфики, които биха били полезни в специфични частни
случаи, а именно - когато вместо независимо, обучаваме едновременно подходящо
подбрано множество от езици.
Именно това е целта на тази работа. Частният случай, в който влизаме, е този на
близкородствените езици, и именно - български и македонски.
Традиционно, за подравняване на векторните пространства на различните езици,
се използват за опорни точки предимно препинателните знаци и числата. Близостта на
избраните два езика обаче отваря възможност за много повече опорни точки, което от
своя страна позволява много по-добро подравняване.
Такива категории опорни точки се получават чрез прилагане на различни подходи
за определяне на сходност на думи: когнати, подмяна на определени букви и срички,
разстояние на Левенщайн, обща подредица и други.
Постигнатите резултатите от обучението на български и македонски векторни
представяния показват значително подобрение в качеството на превода спрямо
векторни представяния, обучени без речници. Резултатите са по-добри и от такива,
получени в предишни разработки чрез използване на речници.
Постигнатите резултати и получените обучени векторни представяния на двата
езика могат да имат широко приложение в други системи, използващи обработка на
естествен език и приемащи като вход думи, представени от вектори.
Също така сходен подход би бил приложим и върху други близкородствени езици.

Scroll to Top