При общуването между хората неизменно присъстват емоции. Те сауниверсални, общи за всички хора, независимо от възрастта, пола, расата или културатаим. Емоциите носят допълнителна информация и подсилват, а понякога дори променятзначението на думите им. Затова разбирането само на съдържанието на речта не едостатъчно за правилното разкодиране на смисъла ѝ.Решаването на задачата за разпознаване на емоция в реч може и да не еобвързано с разбирането на съдържанието на речта. Това дава възможност полученотознание да бъде използвано в различни среди, без значение какъв е използваниятестествен език.Целта на тази дипломна работа е да се разработи прототип на приложение заразпознаване на емоции в реч. За да бъде постигната тази цел речта е представена въввремево-честотния домейн чрез калкулиране на Краткосрочна трансформация наФурие (Short Time Fourier Transform - STFT). STFT се използва за определяне на силатана честотите и промяната им с течение на времето от сигнала. По този начин входнитесигнали са преобразувани в подходяща за обучение форма и без загуба на информация.Предложен е класификационен модел от тип Темпорална Конволюционнаневронна мрежа, който представлява конволюционна невронна мрежа, при която еприложен фактор разширяване (dilation). Всеки следващ конволюционен слой имапо-голямо разширяване от предишния, като по този начин обхваща по-голям времевипрозорец от сигнала. По този начин могат да бъдат засечени промени вразпределението на честотите в сигналите и в по-малки, и в по-големи прозорци отвреме, което да помогне за разпознаването на конкретни емоции в тях.За обучението са използвани две популярни бази от аудио записи - EmotionalSpeech database (EmoDB) и Ryerson Audio-Visual Database of Emotional Speech and Song(RAVDESS). Резултатите от проведените експерименти върху EmoDB са съответно 78%точност при разпознаването на 7 емоции и 90% точност при разпознаването на 4емоции. Резултатите от проведените експерименти върху RAVDESS са 75% точностпри класификацията на 8 емоции и 87% точност при класификацията на 5 емоции. Тезирезултати са сравними с най-високите постигнати резултати от експерименти вобластта, като в същото време предложената архитектура не е излишно усложнена и неса използвани ръчно калкулирани спектрални характеристики на сигналите.Разработеният в тази дипломна работа модел за разпознаване на емоции в речможе да допринесе за подобряването на взаимодействието между човек и машина и дабъде използван в различни автоматизирани системи, например системи за продажби,домашни асистенти и др. Една от основните идеи за приложението му е като част отроботизирана система за емоционална подкрепа на хора в нужда, или т.н емпатичнасистема.
Copyright © 2015 - Катедра Софтуерни технологии