Информационна система за дипломанти - Катедра Софтуерни технологии

Дипломна работа

Откриване на пропагандни техники в многоезични мемета | Защитена на: 01/01/1900

В последните години меметата станаха популярна форма на комуникация. Започнаха да се използват от много рекламни агенции да въздействат върху хората. Като всяка една форма на комуникация, и те могат да се използват за пропагандни цели.

В досегашните разработки, за търсене на пропаганда в мемета, подходите са или едномодални и ползват само информация за текста, или са мултимодални и ползват информация за текста и изображението. Текстовите подходи обикновено използват версии на BERT моделa, a за мултимодалните подходи се използват по сложни модели, които комбинират представянето на текста и изображението като VisualBERT. Сегашните мултимодалните подходи се делят на два вида: ранно сливане - обединяващи представянето на текста и изображението на входа на модела; и късно сливане - обединяващи представянето на текста и изображението след първоначална обработка в езикови модели и модели за визуално отговаряне на въпроси. В досегашните разработки се използва основно английски езики и не се срещат достатъчно разработки използващи български или други езици с ограничени ресурси.

Липсата на достатъчно разработки за български и македонски и наличието на изобилие от онлайн пропаганда в социалните мрежи на глобално и на местно ниво, мотивира нужда за работа в сферата на разпознаването и класифициране на пропагандни мемета. Разбирането на начините за въздействие на пропагандата онлайн са ключови за ранно противодействие на зловредни влияния в обществото.

Целта на дипломната работа е разработване, реализиране и експериментална проверка на метод за разпознаване на различни пропагандни техники в английски, български и македонски. За изпълнението на целта събирам данни на български и македонски, чрез система обхождаща и извличаща мемета от групи на социалната мрежа Фейсбук с политическа или историческа тематика, където и най-често се намира пропаганда. След събирането на изображенията, извличам текста от тях с помощта на Google Vision Detect Text. Пропагандните техники, които искаме да предскажем са 22 на брой.

В проведените опити разглеждам основни подходи, едномодални модели и след това провеждам експерименти с мултимодални модели (текст и изображение), които ще оптимизирам впоследствие. Архитектурата на опитите използва многоезиков CLIP, който генерира представяне за текста и изображение. След това конкатенирам представянията и ги подавам на еднослойна невронна мрежа, където резултата минава през сигмоидна функция. Накрая невронната мрежа предсказва какви са използваните пропагандни техники. Като основна оценъчна функция ще използвам f1-micro, a като вторична - f1-macro, тъй като и двете са подходящи за мулти класификационни задачи. От проведените опити, най-добрия резултат се получава при мултимодален модел. На най-добрия мултимодален модел правя оптимизация на границата, която повишава допълнително резултата. След анализа на грешките, в резултатите виждам основно разлика основана на неравномерно разпределение на класовете - най-добре представените класове се предсказват по-правилно, а по-рядко представени не се предсказват правилно.

От проведените опити виждаме, че CLIP моделите са ефективни за решаване на представената мултимодалната задача. Основния проблем, който трябва да реша, са недостатъчно данни за по-рядко представените техники. За да подобря резултатите планирам да събера допълнителни данни. Друг подход, който планирам да използвам с цел подобряване на резултатите, са модели въпрос отговор, към които да подам и изображение.