Информационна система за дипломанти - Катедра Софтуерни технологии

Дипломна работа

Система за проверка на факти в онлайн форуми | Защитена на: 01/01/1900

Онлайн форумите са уеб платформи, в които потребителите могат да задават въпроси, да отговарят на въпроси от други потребители или да дискуират различни теми. Въпросите са организирани в различни категории. Пример за известни такива форуми са: Yahoo! Answers, Quora, Stack Overflow.
При отговаряне на въпроси във форуми (Community Question Answering, cQA) има някои специфики, които идват от това, че всеки може да публикува съдържание: няма стриктни правила за използваните изразни средства, граматически неправилен изказ, използване на жаргон, правописни грешки и др. Освен стила на писане, друга важна характеристика е невъзможността да се потвърди истинността на информацията. Тъй като отговорите във форумите идват от хора, които съзнателно или не могат да поднесат невярна информация, не можем да бъдем сигурни доколко написаното е вярно. Тези проблеми обуславят нуждата от автоматизирана проверка на тези твърдения.
Настоящата работа представя експерименти с трудната задача за проверка на факти в онлайн форуми. Доколкото ни е известно, тази тема не е изследвана до момента.
Тъй като дефинираме нов проблем, е необходимо да създадем подходящ набор от данни за изграждане и тестване на модел.
В настоящата система правим модел на факти в следните направления: информация за съдържанието на отговора (какво и как е казано), за профила на автора на отговора (кой го казва), от останалата част на форума (къде още е споменато) и от авторитетни външни източници (външни доказателства).
Според проведените експерименти, характеристиките, базирани на външни източници на информация и на информация от останалата част на форума, са с най-голяма тежест при определяне на факти.
Други важни за моделиране на фактите характеристики са лингвистични атрибути на отговорите, семантични вектори, тренирани върху целия форум, както и характеристики, свързани с достоверността на информацията.
Най-незначителни за определяне на верността на информацията се оказват характеристики, свързани с информация за автора на съобщението.
При проведени експерименти с комбиниране на системи от различни групи характеристики, постигнахме точност (Accuracy) 72.29 и усреднена средна презицност (Mean Average Precision) 86.54. Тези резултати са обещаващи за възможността за практическо приложение на подобна система.
Настоящата работа е описана в статия, която e в процес на оценяване за EMNLP 2017.