Информационна система за дипломанти - Катедра Софтуерни технологии

Дипломна работа

Разпознаване на емоции в изображения с текст | Защитена на: 01/01/1900

В рамките на дипломната работа се проучва и разработва методология за разпознаване на емоции в мемета - популярни изображения с текстови описания, използвани широко в социалните мрежи и интернет. Въпреки голямата им популярност в последните години, все още няма много разработки в областта на разпознаването на настроения в меметата. Подобен анализ не е лесна задача поради мултимодалния им характер (текст + изображение).

Процесът започва със събирането и анотирането на множество данни на английски език, като тези данни са мемета, които са анотирани като положителни, отрицателни или неутрални. Общият брой събрани данни е 5592 мемета, които са извлечени от различни социални мрежи като Instagram, Tumblr, Reddit и Facebook. Анотирането на данните се извършва с използване на метода на "Distant supervision", където се използват таговете поставени от потребителите за извършването на анотацията.

В работата се извършва тестване и оценка на различни модели и алгоритми за класификация на емоции. Разгледани са както подходи извършващи класификация само на основата на текста или изображението така и мултимодални подходи използващи комбинация от текстови и визуални данни. Моделите използвани за класификация са: BERT за класификация основана на текст; VGG19 за класификация основана на изображения; модели на CLIP, които се използват за класификация с различен вход - само с текст, само с изображения и комбиниране на текст и изображение. Бяха проведени експерименти и с моделът VILT, който работи с комбинация от текст и изображение. Освен с изброените модели експерименти се проведоха и със задаване на въпроси към големи езикови модели. При него бяха тествани ChatGPT (GPT3.5) и LLaVA, като отново са разгледани различни вариации, както само с текст, само с изображения и с комбиниране на текст и изображение.

Резултатите от експериментите показаха, че използването само на текстова информация води до значително по-ниски резултати с F1=0. 602, в сравнение с анализа, базиран само на изображения, при който оценката достига F1=0.747. Най-добри резултати се постигат при използването на комбинация от текст и изображение, където максималната постигната оценка е F1=0.817. Този резултат, който е и най-високият постигнат в рамките на проведените експерименти, се постига чрез подхода на задаване на въпроси към големи езикови модели и в частност LLaVA модела.

Тази дипломна работа допринася за създаването на ефективни системи за разпознаване на емоции в социални медии и други контексти, където текст и изображение играят важна роля.