Информационна система за дипломанти - Катедра Софтуерни технологии

Дипломна работа

Автоматично откриване на събития в текст | Защитена на: 01/01/1900

Софийски университет "Св. Климент Охридски"
Факултет по математика и информатика
Катедра "Софтуерни технологии"

Резюме на дипломна работа

на тема

Автоматично откриване на събития в текст

на
Елена Георгиева Тупарова
Факултетен номер: 4MI3400132
Специалност: Информатика
Магистърска програма: Извличане на информация и откриване на знания

Ръководители:
проф. д-р Иван Койчев
доц. д-р Светла Бойчева

октомври 2023

Предметът на изследване на дипломната работа са задачите за откриване и извличане на събития - предизвикателни задачи от областта на обработката на естествен език, в случая разгледани в контекста на борбата срещу дезинформацията.

Задачата за откриване на събития има за цел да определи какво събитие се споменава в даден текст и коя е неговата активираща дума. Задачата за извличане на събития допълнително се стреми да даде отговори и на въпросите Кой?, Какво?, Кога?, Къде?, Защо?, Как? относно събитието, т.е. да открие и класифицира аргументите му.

Целта на дипломната работа е да се разработят метод и софтуерен прототип, който разпознава в текст събития от предварително зададено множество, както и да се предложи методология за разширяване на предложеното множество с нови събития.

В рамките на дипломната работа е направен подробен обзор на съществуващите подходи, които се прилагат в областта на откриването и извличането на събития. Въз основа на направените от него изводи е избран подходът Text2Event за по-нататъшно изследване. Избраният Text2Event модел е предварително обучен върху данни от корпуса ACE2005. В настоящото изследване първо е приложен върху данни, извлечени от нерелационна база от данни с опровержения на фалшиви новини - Database of Known Fakes (DBKF). Целта е да се установи какви събития от класификацията на ACE2005 се срещат в тях.

Разработена е методология за разширяване на множеството от разпознавани събития, като се дефинирани три нови типа събития - Cure-Claim (Твърдение-за-лечение), Severe-Weather (Опасно-време) и Rule-Change (Промяна-на-правилата). За всеки един от новодефинираните типове събития са подбрани данни от извлечените от DBKF. Създадени са указания за анотиране на данни за новите типове събития, на базата на които е създаден новият корпус от данни EXTEND. Тъй като ръчното анотиране на данни е трудоемък и бавен процес, размерът на новия корпус е сравнително малък, което е и едно от основните предизвикателства в случая.

Предварително обученият върху данните от ACE2005 модел Text2Event е обучен допълнително за данните от новия корпус EXTEND. Приложено е машинно самообучение с учител. Проведени са експерименти с цел да се изследва значението на количеството използвани данни за обучение и броя епохи за обучение. Резултатите показват ефективността на подхода относно представянето на допълнително обучените модели както върху новите типове събития от EXTEND, така и върху типовете събития от ACE2005. Също така са проведени и експерименти с големия езиков модел LLaMA-2 (конкретно LLaMA-2-70b-chat, който има 70 милиарда параметъра). Приложен е подход без предварително обучение. Резултатите показват, че с приложените инструкции към LLaMA-2-70b-chat за класифициране на типа събитие, което се среща в даден текст, двата изследвани подхода се справят съизмеримо добре. За класифицирането на аргументите на събитието обаче допълнително обучените Text2Event модели демонстрират по-добро представяне.

Въз основа на резултатите от експериментите и направения анализ е избран този допълнително обучен Text2Event модел, който се справя едновременно най-добре с разпознаването на събития от новите типове от EXTEND и от старите типове от ACE2005. Моделът е използван като основна част на софтуерен прототип на система за автоматично откриване на събития в текст.