Информационна система за дипломанти - Катедра Софтуерни технологии

Дипломна работа

Откриване на туитове, съдържащи подходящи за проверка твърдения | Защитена на: 01/01/1900

През последното десетилетие се наблюдава нарастваща тенденция на разпространение на дезинформация в онлайн форуми и социални мрежи. Това явление е още познато като “фалшиви новини”. Актуални теми, които са обект на такъв тип подвеждащи изказвания, са в областите на здравеопазването (напр. COVID-19), политиката (напр. президентските избори в САЩ през 2020 г.) и други.

Настоящото изследване разглежда слабо изследваната област за откриване на туитове, съдържащи подходящи за проверка твърдения. Под “подходящи за проверка твърдения” се разбират такива, които съдържат проверяеми твърдения и факти, които засягат теми от обществен интерес. Задачата за откриване на туитове, съдържащи подходящи за проверка твърдения, свежда броя на туитовете, до такива, които може да имат отрицателно влияние върху обществото и вероятно съдържат невярна информация. Счита се, че те заслужават да бъдат проверени от специалисти, които да потвърдят или да отхвърлят истинността им.

Данните, използвани за решаване на задачата, се състоят както от вече съществуващи набори от данни по темата (предоставените за състезателни цели от конференцията CLEF през 2021 г. и 2022 г.), така и от извлечени нови шумни данни от Twitter с използване на отдалечено обучение. На база на съществуващите модели BERT, RoBERTa, BERTweet и Twitter RoBERTa се обучават модели, като за отделните експерименти се подават различен набор от учебни данни. За изпълнението на задачата са направени общо 20 експеримента, които са групирани в зависимост от направените хипотези и постановки. Направени са хипотези, отнасящи се за това дали модели, първоначално обучени върху допълнително извлечените набори от данни с 1000 и 5000 примера, се подобряват след повторно обучение, което се провежда върху учебните данни от CLEF, сравнявайки ги с представянето на модел, изначално обучен върху данните от състезанието. Също така хипотези има и спрямо използваните данни за валидиране и тестване и такива отнасящи се до оптимизация на хиперпараметъра learning rate, като последните се утвърждават като най-успешни.

Направеният анализ на взаимовръзките между показаните резултати върху валидационните и тестовите данни на база изчисления на корелацията на Пирсън (Pearson Correlation) подкрепя заключението, че когато при обучение на нов модел се използват данните от CLEF за 2022 г. за валидиране и тестване, получените резултати са взаимосвързани, което внася увереност, че новият модел успешно би се справил със задачата за откриване на твърдения, подходящи за ръчна проверка от професионалисти. От друга страна, се наблюдава, че когато за валидиране и тестване са приложени данните от CLEF2021, корелация почти липсва, което е признак за нехомогенност и дисбаланс в тези данни.

Разработеният прототип на система е написан на Python и съхранен в частно хранилище в GitHub, а като среда за работа се разчита на ресурсите, предоставени от ФМИ към СУ “Св. Климент Охридски”, изградени по проект УНИТе.