Дипломна работа

Преобразуване на музикални файлове от един стил в друг | Защитена на: 01/01/1900

Към настоящия момент алгоритмите за машинно самообучение се прилагат във все повече сфери от живота на хората. В музиката обаче те все още се прилагат по-малко в сравнение с другите области. Работата в тази насока е не само интересна, но също така и ценна, защото дава възможност на разработчиците по-бързо да постигат различни резултати в сферата. Затова в дипломната работа ще бъде разгледана задача, която е свързана с приложението на невронните мрежи в областта на музиката. И по-конкретно ще бъде обучен модел, който да преобразува музикален файл по такъв начин, че неговият стил да се промени, но да се запази мелодията на входящия файл. За обучение на модела ще бъдат използвани данни, които му позволяват да преобразува инструментал на метъл песен в класическа/оркестрова музика, както и пеене на вокалист (акапелно изпълнение) в мелодия на пиано.

Първоначално ще бъде направено проучване на различни вече съществуващи платформи, които правят някакъв вид обработка на музикални файлове и които използват алгоритми за машинно самообучение за тази цел. От тези алгоритми ще бъдат разгледани в повече детайли две конкретни архитектури на GAN (Generative adversarial network) невронните мрежи. Това са CycleGAN и TraVeLGAN архитектурите. Ще бъде направен анализ какви са техните предимства и недостатъци. В дипломната работа ще бъде използвана TraVeLGAN архитектурата, тъй като тя е подходяща за преобразуване на музикален файл от един стил в друг. Важно е да се спомене, че този алгоритъм работи с изображения, което означава, че в текущата дипломна работа трябва работата с музика да се сведе до работа с изображения. Това ще бъде постигнато като се използва предварително разработения от автора на TraVeLGAN архитектурата подход за преобразуване на музикален файл до последователност от спектрограми, като ще бъде подробно описано каква е структурата на този тип 2D диаграма и каква информация съдържа тя.

Като част от дипломната работа ще бъде разработен допълнителен софтуер, който има за цел да улесни работата на бъдещите потребители с този вече разработен модел, както и да се опита да подобри резултатите, постигнати от него. Първата основна задача е да се разработи подход за предварителна обработка на музикални файлове, за да може да се преобразуват до формат, който е очакван за използване като входен параметър на TraVeLGAN архитектурата. По този начин бъдещите потребители ще могат лесно да използват свои данни за обучение на модела и така да решават свои специфични задачи. Втората основна задача е да се разработи софтуер, който да позволява графичното представяне на различните грешки, допускани от невронните мрежи, съставляващи TraVeLGAN архитектурата. По този начин бъдещите потребители ще могат да анализират как тези грешки се променят в процеса на обучение на модела и по този начин да вземат информирано решение кога е подходящ момент този процес да се прекрати.

Като заключителна стъпка в дипломната работа ще бъде направена оценка за работата на модела и за разработения допълнителен софтуер и всички тези неща ще бъдат описани и обобщени в документацията на проекта.

Scroll to Top