Информационна система за дипломанти - Катедра Софтуерни технологии

Дипломна работа

Разработка на приложение за разпознаване на емоции в реч | Защитена на: 01/01/1900

При общуването между хората неизменно присъстват емоции. Те са
универсални, общи за всички хора, независимо от възрастта, пола, расата или културата
им. Емоциите носят допълнителна информация и подсилват, а понякога дори променят
значението на думите им. Затова разбирането само на съдържанието на речта не е
достатъчно за правилното разкодиране на смисъла ѝ.
Решаването на задачата за разпознаване на емоция в реч може и да не е
обвързано с разбирането на съдържанието на речта. Това дава възможност полученото
знание да бъде използвано в различни среди, без значение какъв е използваният
естествен език.
Целта на тази дипломна работа е да се разработи прототип на приложение за
разпознаване на емоции в реч. За да бъде постигната тази цел речта е представена във
времево-честотния домейн чрез калкулиране на Краткосрочна трансформация на
Фурие (Short Time Fourier Transform - STFT). STFT се използва за определяне на силата
на честотите и промяната им с течение на времето от сигнала. По този начин входните
сигнали са преобразувани в подходяща за обучение форма и без загуба на информация.
Предложен е класификационен модел от тип Темпорална Конволюционна
невронна мрежа, който представлява конволюционна невронна мрежа, при която е
приложен фактор разширяване (dilation). Всеки следващ конволюционен слой има
по-голямо разширяване от предишния, като по този начин обхваща по-голям времеви
прозорец от сигнала. По този начин могат да бъдат засечени промени в
разпределението на честотите в сигналите и в по-малки, и в по-големи прозорци от
време, което да помогне за разпознаването на конкретни емоции в тях.
За обучението са използвани две популярни бази от аудио записи - Emotional
Speech database (EmoDB) и Ryerson Audio-Visual Database of Emotional Speech and Song(RAVDESS). Резултатите от проведените експерименти върху EmoDB са съответно 78%
точност при разпознаването на 7 емоции и 90% точност при разпознаването на 4
емоции. Резултатите от проведените експерименти върху RAVDESS са 75% точност
при класификацията на 8 емоции и 87% точност при класификацията на 5 емоции. Тези
резултати са сравними с най-високите постигнати резултати от експерименти в
областта, като в същото време предложената архитектура не е излишно усложнена и не
са използвани ръчно калкулирани спектрални характеристики на сигналите.
Разработеният в тази дипломна работа модел за разпознаване на емоции в реч
може да допринесе за подобряването на взаимодействието между човек и машина и да
бъде използван в различни автоматизирани системи, например системи за продажби,
домашни асистенти и др. Една от основните идеи за приложението му е като част от
роботизирана система за емоционална подкрепа на хора в нужда, или т.н емпатична
система.