Информационна система за дипломанти - Катедра Софтуерни технологии

Дипломна работа

Автоматично оценяване на верността на проверими твърдения | Защитена на: 01/01/1900

Проверката на фактите е задача, чиято цел е поставянето на оценка за това доколко е вярно едно твърдение. За да я решим, трябва първо да изберем твърдение, което е всъщност проверимо. Има различни подходи за оценяване на това дали едно твърдение е проверимо, но най-общо то трябва да назовава факти, за които могат да бъдат открити доказателства. След избирането на твърдение за проверка, трябва да открием документи с факти, отнасящи се до твърдението, с които да го проверим. Следващ етап от проверката на фактите е на база наличните извлечени документи да поставим оценка за истинност на твърдението.

Проверката на фактите обикновено се извършва от професионални журналисти с цел разпространение на достоверна информация. Процесът обаче може да бъде времеемък, особено при по-сложни твърдения, тъй като внимателното оценяване на надеждността на източниците на документи с доказателства, разглеждането на информацията в тях и заключването дали те подкрепят или отричат дадено твърдение отнема време. Освен това информацията не се разпространява само от традиционни медии. Поради изброените трудности, етапът на проверката може да бъде пропуснат при разпространението на информация както от страна на медии, така и от страна на обикновени потребители в социалните мрежи и Интернет. Автоматизирането с голяма точност както на цялата задача за проверка на информацията, така и само на някоя от нейните подзадачи би било от полза на различни групи от обществото.

Целта на дипломната работа е да се предложи и експериментира с нов метод за автоматично поставяне на оценка на верността на твърдение, при вече налични достоверни документи с факти относно него. За целта е използвано ново множество от данни, което ни позволява да разгледаме задачата като ординална регресия с фина 6-степенна скала на истинност, за разлика от почти всички разработки до сега.

За целта в дипломната работа разгледахме текущите разработки по темата, както и данните и методите, които използват. За решаването на задачата използвахме както самостоятелни модели, така и ансамбли от тях. Експериментирахме с общо 10 различни представяния на твърдение, неговите метаданни като автор и цитираните документи, които са използвани за проверката му. Освен това експериментирахме с 2 дестилирани модела за репрезентация на текст - DistilBERT и DistilRoBERTa. Първоначално разгледахме задачата като класификационна такава, игнорирайки подредбата на етикетите за истинност. По този начин, получихме ориентировъчни мерки за точност, с които да сравняваме следващите експерименти. След това започнахме същинските експерименти по задачата, в които я разглеждаме като ординална регресия. Те включват експерименти с двете възможни подредби на етикетите за истинност - възходяща и низходяща, както и експерименти включващи претеглена или непретеглена функция на загубата. От експериментите, установихме кое представяне на данните на твърдение и кой модел за репрезентация на текст водят консистентно до най-добри резултати. Следващ тип експерименти, които проведохме включват ансамбъл, осредняващ предсказанията на моделите си и блендинг ансамбъл с мета-модел регресор или ординален класификатор. Постигнатите резултати от този тип експерименти, успяха да подобрят резултатите на най-добрият единичен модел по всички мерки.

След проведените експерименти дискутирахме получените резултати, както и някои методи, които реализирахме, но не доведоха до достатъчно добри резултати. Накрая предложихме някои насоки за бъдещо развитие като използването на по-голяма част от текстовите доказателства или използването на доказателства от различни модалности.