Laten we beginnen met te zeggen dat dit artikel geen eindpunt is. Het is een stap in ons lopende onderzoek naar de ontwikkeling van verantwoorde AI-toepassingen voor kunstenaars. Eén van deze artiesten is Eveline Ypma, met wie wij op 4 april 2024 een live optreden organiseren in OT301. Samen met Eveline onderzoeken we het potentieel van tekst-naar-muziek. AI-technologie zal onze bevindingen in dit artikel delen.
Eveline maakte een EP die gesamplede veldopnames uit de natuur van IJsland combineert met haar eigen zang en basgitaar. Het resultaat is een harmonieuze soundscape van 15 minuten. Onze uitdaging was om deze EP uit te breiden en te vertalen naar een live optreden van 30-45 minuten, met behulp van generatieve AI. Samen besloten we te experimenteren met AI-tools die gelijksoortige veldopnames en geluidseffecten kunnen genereren die Eveline zou kunnen gebruiken om haar liveoptreden uit te breiden.
Hoe zijn wij begonnen?
Ons doel was om nieuwe audiobestanden (10-20 seconden) te genereren die lijken op haar eigen IJslandse muzieksamples. Om dit te doen zijn we begonnen met een onderzoek naar verschillende manieren om nieuwe muziek te genereren met AI. Welke AI-modellen zijn er al? Welke bestaande tools kunnen we testen? En hoe zorgen we ervoor dat de technologie-leveranciers de gegevens van Eveline niet stelen?
Eerst hebben we een reeks experimenten uitgevoerd met bestaande AI-modellen. Geïnspireerd door Dadabots en hun oneindige stroom door AI gegenereerde death metal, zijn we aan de slag gegaan met SampleRNN modellen. Dit is een audio-to-audio model waarbij je een muziekbestand uploadt en er vergelijkbare muziekbestanden voor terugkrijgt. Helaas waren we niet tevreden met de resultaten omdat de output teveel ruis bevatte. Bovendien was het proces zeer tijdrovend en zeer complex.
We zijn overgegaan op het algoritme van Stable Diffusion genaamd Dance Diffusion. Dit is ook een audio-to-audio systeem waarmee u audiofragmenten kunt maken die klinken als uw invoerbestanden. Helaas produceerde ook dit model, net als het vorige model, veel ruis en was erg glitchy.
Ons doel was om te zoeken naar kant-en-klare AI modellen die we onmiddellijk konden gebruiken om een workflow voor Eveline te creëren – zonder dat we ons eigen aangepaste AI-model hoefden te trainen. Maar helaas bleek dit lastiger dan verwacht. Daarom besloten we het roer om te gooien en te kijken naar kant-en-klare AI-tools.
Eerst hebben we de text-to-music toepassing van Stable Diffusion geprobeerd, genaamd Stable Audio, die audiobestanden maakt op basis van tekst-prompts. Een ChatGPT voor muziek. Voor het eerst produceerden we door AI gegenereerde output die inderdaad klonk als een bruikbaar muziekfragment. Toch konden we de output niet gebruiken: de gebruiksvoorwaarden verhinderden ons om de tool te blijven gebruiken.
We hebben ook Meta's MusicGen en AudioGen geprobeerd, als een vergelijkbaar prompt-gebaseerd AI model waarmee je audiobestanden en muziekbestanden kunt genereren. Zolang je een Gmail-account hebt, kan iedereen deze modellen gebruiken in een Google Collab omgeving. MusicGen heeft ons tot nu toe de beste resultaten opgeleverd. Het genereerde audiofragmenten van hoge kwaliteit waar we meteen mee aan de slag konden. Helaas had dit systeem vergelijkbare gebruiksvoorwaarden.
Gebruiksvoorwaarden
Naar onze mening zijn de gebruiksvoorwaarden van te veel generatieve AI-muziektools misleidend. Hoewel de meeste product-websites je vertellen dat je de volledige eigendom van je in- en output behoudt, wordt het vaak duidelijk dat je jouw werk ook in sublicentie geeft aan het AI-platform. Technisch gezien blijf jij altijd eigenaar van jouw in- en output. Maar je geeft het eigendom ook aan iemand anders.
In het geval van Eveline Ypma is dat problematisch. Eveline is een kunstenaar en zij zou de rechten op haar eigen creatieve werk moeten bezitten. Daarom hebben we uiteindelijk besloten om het onderliggende MusicGen AI-model van Github te downloaden en zelf een lokale versie op een privéserver te maken. Dit is mogelijk omdat Meta de code open-source via Github publiceerde onder een MIT-licentie.
Onze text-to-music app
Op dit moment werken we samen met een front-end developer om onze eigen tekst-naar-muziek applicatie te bouwen bovenop het MusicGen AI-model. Ons doel is om het onderliggende AI-model op een Europese server te hosten en ervoor te zorgen dat we de invoer- en uitvoergegevens van de gebruiker niet beveiligen. Op deze manier kan iedereen gratis gebruik maken van de AI-technologie – zonder dat hij zijn creatieve werk hoeft weg te geven.