Дипломна работа

Софтуер за управление, визуализиране, синтезиране и споделяне на реч (Ultimate Speaker Editor) | Защитена на: 05/07/2016

Дипломната работа представлява клиент-сървър пакет, който е способен да извлича текст от различни файлови формати включително документи и изображения. Извлеченият текст се синтезира до глас и така се получават аудио презентации. Същите могат да бъдат по-късно качени през криптирана HTTPS връзка и споделени чрез сървъра, от който могат да бъдат оценяни и преглеждани.

В клиентската част потребителя може да редактира по всевъзможни начини документите включително настройки на гласа, изображението, звука, текста и др преди да генерира финалната презентация. Използването на речници подобрява още повече генерираният глас, така че той да се доближава максимално много до истински.

Основните функционалности на пакета са:

  • Четене на DOC, PDF, PPT, JPG, BMP, PNG и др. и извличане на текстовото им съдържание
  • Генериране на човешки глас от извлечения текст на английски или български
  • Редактиране на аудио презентациите преди да бъдат създадени
  • Създаване на плейлисти във формати M3U или WPL по зададена презентация и страници
  • Поддръжка на няколко работни среди
  • Поддръжка на предефинирани гласове, за по-лесно генериране на аудио
  • Поддръжка на речници, които заместват предварително дефинирани думи от речника преди финалната генерация на глас
  • Качване на презентациите на отдалечен сървър за тяхното по-нататъшно споделяне
  • Генериране на резюме в HTML формат на работната среда, което включва обща информация на документите
  • Поддръжка на различни видове потребителски акаунти – администратор и потребител
  • Кодиране на изходния аудио файл в mp3 формат

Както клиентската така и сървърната част използват голямо количество безплатни външни библиотеки. За извличането на текст от документи и изображения се използва Apache Tika и Tess4J, за генериране на глас се използва eSpeak, за комуникация между отделните пакети се използва Restlet платформа, за графичните компоненти се използва Java Swing и за съхраняване на данните в базата от данни се използва SQLite. Всичко е безплатно, с отворен код и може да бъде използвано на Windows и Linux операционни системи.

Дипломната работа представя съвкупност от множество функционалности, които могат да се използват както от обикновени потребители, които ценят собственото си време и предпочитат аудио книгите пред обикновените, така и от преподаватели, които лесно могат да създават и редактират лекциите си и по-късно да ги споделят със студентите си, но също и от хора със зрителни увреждания. Благодарение на отворения си код програмата може лесно да се усъвършенства и надгражда за в бъдеще.

Scroll to Top