Информационна система за дипломанти - Катедра Софтуерни технологии

Дипломна работа

Автоматизирана система за проверка на факти, основана на външни източници на информация | Защитена на: 01/01/1900

Тази дипломна работа се фокусира върху разработката на напълно автоматична система за проверка на факти, използваща външни източници на информация. Разработения метод се възползва от потенциала на глобалната мрежа да си набави необходимата информация за да потвърди или отхвърли едно твърдение. Тази разработка използва „дълбоки“ невронни мрежи за да кодира началното твърдение и съпровождащата го външна информация във векторното пространство. Разработената система постигна високи резултати за две различни подзадачи на проверката на факти: опровергаване на слухове и проверка на факти в публични форуми.

Създаването на невярна информация по политически или финансови причини не е скорошно явление, обаче поради лекотата, с която се разпространява информация в интернет, последствията от това явление са сериозни. Добрите новини са, че с нарастването на последиците от фалшивите новини, автоматизираната проверка на факти се обособи, като важно изследователско направление.

Разработената система за проверка на факти търси в интернет за да потвърди или опровергае едно твърдение. Работата на системата може да се представи в 3 стъпки: намиране на поддържаща информация в интернет, създаване на векторна репрезентация на твърдението, класификация взимаща финалното решение на база събраната информация. Беше разработен метод за преобразуване на твърдение в кратък израз, подходящ за търсене в интернет. Този метод използва методи за ранкиране на думи и извличане на наименувани единици за да създаде кратък текст, които добре представя началното твърдение. Генерирания израз бива подаден на търсещите машини Google и Bing за да получи уместни документи от Интернет. След това биват изчислени 3 различни вида метрики за близост между началното твърдение и извлечената информация. Тези метрики за близост се използват както за характеристики(features), които биват подадени на финалния класификатор, така и като фактор за избор на близки документи, върнати от търсещата машина. Избраните най-близки „външни“ документи, заедно с началното твърдение биват подадени на рекурентната невронна мрежа BiLSTM(Bidirectional Long Short-Term Memory) за да се създаде специфично за задачата векторно представяне на данните. Изчислените метрики за близост, заедно със създаденото векторно представяне, биват подадени на машина на поддържащите вектори (Support Vector Machine) за да бъде класифицирано твърдението като истина или лъжа. Също така бяха направени и експерименти, които използват само невронната мрежа като класификатор.

Основните данни, които бяха използвани, бяха твърдения от уебсайта за ръчна проверка на факти snopes.com. Както и машината на поддържащите вектори(SVM), така и невронната мрежа(NN) показаха подобрение над базовата точност(baseline). Също така невронната мрежа даваше по-добри резултати от SVM (ако SVM не използва репрезентациите тренирани в невронната мрежа). Най-добри резултати, обаче, бяха получени, ако се комбинират репрезентациите от невронната мрежа с класификационния модел на SVM: класификационна точност=80%, при базова точност(baseline) 67%. Също така беше изследвана способността на модела да генерализира, като бива приложен без особени модификации в задачата за проверка на факти в публични форуми, където постигна точност от 72.7% при базова точност(baseline) 51.5%.

Методът, разработен в тази работа е лек, от гледна точка на ръчно изработени характеристики(features), което го прави достатъчно гъвкав, да се приложи в различни задачи. Комбинацията от представящата сила на невронните мрежи с класификационните модели на SVM, показват добри резултати, върху две различни задачи, със съответно различни входни данни, демонстрирайки потенциалната приложимост на метода за проверка на факти върху различни проблеми.