Информационна система за дипломанти - Катедра Софтуерни технологии

Дипломна работа

Резюмиране на дълги текстове по зададен въпрос: Сравняване на методи за резюмиране на книги на български език по ключови думи | Защитена на: 01/01/1900

Развитието на интернет води до нови начини за споделяне на информация и заради това достъпната за потребителите информация расте по-бързо отколкото хората биха могли да я възприемат. Голяма част от тази информация е в неструктуриран вид, т.е. текстов формат. За да се разбере и пресее бързо информация в текстов формат, е нужно да се извлече най-важната част от текста. Машинното резюмиране предоставя решение на проблема с обемната неструктурирана информация, като може да извлече важните части от текста по-бързо отколкото човек би могъл. Машинното резюмиране може да се използва при новинарските интернет платформи и социални мрежи, а също и на различните интернет страници или дори научни текстове и литературни творби. От друга страна машинното резюмиране е трудно за реализация и до този момент няма решения, които да се справят толкова добре, колкото човек.

Дипломната работа цели да изследва различни начини за машино резюмиране като резюметата се базират на ключови думи. Също така разглежда съществуващи изследвания, които реализират както извличащи, така и абстрактни подходи. При извличащите подходи от даден текст се намират най-важните части и се сформира резюме от тези части. Извличащите подходи избират части от текст, които подходите оценяват като ключови за съдържанието и от тях сформират резюмето. Абстрактните методи научават модели, които при подаването на нов текст се генерира резюме. И при двата подхода резюмирането на дълги текстове и изисква значителна изчислителна мощ, като дори и при съвременните компютри е твърде бавно.

За реализацията на дипломната работа е създаден корпус от данни, състоящ се от български книги, техните резюмета и ключови думи, извлечени от резюметата на книгите. Корпусът е създаден с помощта на „паяк“, който обходи част от страниците на chitanka.info. Тези данни са използвани за тестването, анализа и оценката на имплементираните модели.

В рамките на дипломната работа е описана предметната област. Като това включва описание на извличащите подходи и абстрактните подходи, в частност TextRank и Енкодер-декодер архитектура с посочващ механизъм. Описани са и други методи, които подобряват работата на подходите, като метод за регулизация. Дипломната работа описва и начина на създаване на корпуса от данни, както и допълнителните преработки. Тъй като за създаването на корпуса беше нужна допълна обработка – за извличането на ключови думи, в дипломната работа има описание на алгоритъм за извличане на ключови думи. След описанието на предметната област са описани и реализираните алгоритми, както и използваните библиотеки и инструменти, които са нужни за разработката на решението.

Дипломната работа завършва с анализ на резултатите, където са сравнени двата реализирани метода. От резултатите може да видим, че извличащитте подходи, в частност TextRank се справя по-добре в сравнение с Енкодер-Декодер архитектурата с посочващ механизъм. При TextRank резултатите при сравнение на дума и най-дълга последователност от думи виждаме, че алгоритъмът успява да улови нужната ни информация, спрямо подадените ключови думи и извлича изречения, които имат близко значение. При абстрактния алгоритъм може да се забележи, че често не генерира думи, които съдържа референтното резюме, но това вероятно се дължи на вградените думи, които използваме в модела(word embeddings). В края на дипломната работа са предложени насоки за бъдещо развитие както на моделите, така и на корпуса от данни.