Информационна система за дипломанти - Катедра Софтуерни технологии

Дипломна работа

Извличане на твърдения за проверка чрез използване на аудио данни | Защитена на: 01/01/1900

Политическите фигури понякога прибягват до изопачаване или скриване на истината, опитвайки се да защитят своята позиция пред аудиоторията и да заклеймят тази на своя опонент. По този начин отварят пътя на дезинформацията, която мощно връхлита обществото. В борбата с нея участват множество организации, които проверяват фактологични твърдения. Те проследяват информацията, нейните източници и техните мотиви. Публичното потвърждаване или опровергаване на изказаните твърдения спомага за коректната информираност на хората и дава сигнал, че публиката ще бъде критична спрямо истинността на изказванията. Количеството политическа реч е необятно. Автоматизираното откриване на фактологични твърдения, които да бъдат проверени съществено би подпомогнало разследващите журналисти в тяхната дейност. Предишни разработки използват текстови данни, като в настоящата работа се въвежда използването на звук. Съставя се мултимодално множество (текст и аудио на английски език) от политически дебати, речи и интервюта, което съдържа 48 часа реч, в които се произнасят 34 489 изречения. Проучва се как се представят различни невронни модели - някои, използващи само звук и други, които комбинират двата вида данни. Количествената оценка на представянето се установява чрез задача за ранкиране на изреченията според това до каква степен представляват твърдение, подходящо за проверка. При използването на само аудио данни се наблюдава подобрение спрямо базови текстови модели, а в случая на само един говорещ (подмножество от всички изречения) резултатите надвишават дори тези, постигнати с мощен текстов модел. Двата типа данни се допълват - резултатите, постигнати при комбинирането в ансамбъл на модели с различен вход носи подобрение спрямо силен текстов модел дори и в случая, в който работим с целия набор от изречения, произнесени от множество хора.