Artikel door mij geschreven voor de digitale magazine van de NVGB
Tijdens het voorjaarsfestival en de nationale werd de AV vertoond: “Bisti, borders en badlands”. De tekst werd zeer goed bevonden. De teksten schrijf ik zelf en vraag dan aan AI om aanvullingen en verbeteringen. Weer herschrijven en dan nog eens door AI. Ik maak de keuzes en AI helpt mij.
Ik kreeg ook vragen over wat ik gedaan had met de stem van Raymond Serré. De tekst was inderdaad ingesproken door Raymond, maar het eindresultaat is een AI-stem. Ik wil hierbij de stappen beschrijven hoe dat is gegaan. Op mijn laptop hoorde ik dat de tekst zeer goed was ingesproken door Raymond, maar tijdens de montage hoorde ik op mijn betere speakers een Raymond met een beetje wasknijper op de neus. Ik vermoedde een ongewenste geluidscorrectie, wat ik ook dacht te zien in een frequentieanalyse. Nico meldde dat ik de originele opname had ontvangen. Wie ben ik dan als geluidsamateur om daaraan te twijfelen?
Inmiddels had ik meer ervaring gekregen met AI-stemmen. Ook de voortschrijdende AI-techniek heeft mij geholpen. Het AI-resultaat vond ik beter klinken dan de ontvangen opname van NVBG. De AI-versie is dan ook gebruikt.
De stappen:
Op YouTube vond ik een tekstfragment van Raymond, dat heb ik ingeladen in ElevenLabs. 30 seconden mp3-kwaliteit was voor ElevenLabs al genoeg om dit verder te kunnen gebruiken.
Hiervoor heb je wel een abonnement nodig bij ElevenLabs van 5 dollar per maand.
Dan de vraag aan ChatGPT om de geschreven tekst te analyseren en te voorzien van emotietags. Dit is de prompt die ik heb gebruikt:
“
Analyseer onderstaande tekst zodat deze optimaal is voor spraakgeneratie in ElevenLabs.
Houd rekening met de volgende richtlijnen:
Gebruik een rustig en natuurlijk spreektempo (niet gehaast).
Voeg voldoende pauzes toe met behulp van leestekens en indien passend korte stiltes (bijv. “…”, of nieuwe regels).
Integreer emotietags waar relevant (bijv. [warm], [enthousiast], [serieus], [fluisterend], [oprecht]).
Gebruik intonatie-aanwijzingen om belangrijke woorden of zinnen nadruk te geven.
Maak de tekst vloeiend en prettig om naar te luisteren, alsof een professionele voice-over het inspreekt.
Zorg voor een duidelijke opbouw en ritme.
Format de output als een script dat direct bruikbaar is in ElevenLabs.
Hier is de tekst:
[PLAATS HIER JE TEKST]
“
In ElevenLabs ga naar “text to speech”. Het resultaat van ChatGPT met de emotietags kopiëren naar ElevenLabs. Ik heb model Eleven v3 gebruikt (vraag me niet waarom).
Kies de opgeladen stem. Ergens zie je 3 opties staan van creative naar robust.
Per generatie heb je 2 keer een download en je kan 2 keer regenereren.
Dan krijg je 6 audiofragmenten, die elk verschillend van elkaar zijn.
Deze in Wings onder elkaar gezet en dan zin voor zin kiezen welk fragment je het beste vindt.
Uitvoeren als .wav-bestand en mixen in de show.
De opgeladen stem van Raymond heb ik uiteraard heel snel weer verwijderd van ElevenLabs, omdat een opgeladen stem door iedereen gebruikt kan worden.
Nadat ik dat gedaan had, kreeg ik wel het gevoel dat met dit soort ontwikkelingen professionele sprekers overbodig worden. Immers, ik had in het verleden al enkele zeer goede sprekers gehad, die ik op deze manier voor nieuwe teksten kan gebruiken. Voor mijn AV “Bisti, borders en badlands” zag ik dat bezwaar niet, omdat ik daarvoor wel betaald had.
Kortom: het ongemak van AI.