Софтуер за управление, визуализиране, синтезиране и споделяне на реч (Ultimate Speaker Editor) | Защитена на: 05/07/2016
Дипломната работа представлява клиент-сървър пакет, който е способен да извлича текст от различни файлови формати включително документи и изображения. Извлеченият текст се синтезира до глас и така се получават аудио презентации. Същите могат да бъдат по-късно качени през криптирана HTTPS връзка и споделени чрез сървъра, от който могат да бъдат оценяни и преглеждани.
В клиентската част потребителя може да редактира по всевъзможни начини документите включително настройки на гласа, изображението, звука, текста и др преди да генерира финалната презентация. Използването на речници подобрява още повече генерираният глас, така че той да се доближава максимално много до истински.
Основните функционалности на пакета са:
- Четене на DOC, PDF, PPT, JPG, BMP, PNG и др. и извличане на текстовото им съдържание
- Генериране на човешки глас от извлечения текст на английски или български
- Редактиране на аудио презентациите преди да бъдат създадени
- Създаване на плейлисти във формати M3U или WPL по зададена презентация и страници
- Поддръжка на няколко работни среди
- Поддръжка на предефинирани гласове, за по-лесно генериране на аудио
- Поддръжка на речници, които заместват предварително дефинирани думи от речника преди финалната генерация на глас
- Качване на презентациите на отдалечен сървър за тяхното по-нататъшно споделяне
- Генериране на резюме в HTML формат на работната среда, което включва обща информация на документите
- Поддръжка на различни видове потребителски акаунти – администратор и потребител
- Кодиране на изходния аудио файл в mp3 формат
Както клиентската така и сървърната част използват голямо количество безплатни външни библиотеки. За извличането на текст от документи и изображения се използва Apache Tika и Tess4J, за генериране на глас се използва eSpeak, за комуникация между отделните пакети се използва Restlet платформа, за графичните компоненти се използва Java Swing и за съхраняване на данните в базата от данни се използва SQLite. Всичко е безплатно, с отворен код и може да бъде използвано на Windows и Linux операционни системи.
Дипломната работа представя съвкупност от множество функционалности, които могат да се използват както от обикновени потребители, които ценят собственото си време и предпочитат аудио книгите пред обикновените, така и от преподаватели, които лесно могат да създават и редактират лекциите си и по-късно да ги споделят със студентите си, но също и от хора със зрителни увреждания. Благодарение на отворения си код програмата може лесно да се усъвършенства и надгражда за в бъдеще.