OpenAI, het AI-bedrijf dat ook ChatGPT maakt, heeft een tool gemaakt die op basis van een fragment van vijftien seconden een stem na kan bootsen. Het bedrijf heeft samples van Voice Engine uitgebracht, maar wil niet meteen het hele model openbaar maken.
Het model heet Voice Engine en kan teksten oplezen die een gebruiker als tekstuele input geeft. Op basis van een audiofragment beweert OpenAI dat de AI een stem volledig kan nabootsen, inclusief intonatie en emotie. Zo'n fragment hoeft maar vijftien seconden te duren, zegt het bedrijf.
Het is niet duidelijk op basis van welke audiofragmenten Voice Engine is getraind. OpenAI zegt tegen TechCrunch dat het gaat om een combinatie van gelicenseerde en publiek beschikbare data. Volgens het bedrijf is Voice Engine niet getraind op gebruikersdata. Ook worden samples die gebruikers maken na afloop verwijderd.
Voice Engine is nog niet beschikbaar voor gebruikers, zoals dat tegenwoordig vaker gebeurt bij soortgelijke diensten en zegt dat het daar nu ook voorzichtig mee is vanwege de implicaties. De tool zou al snel kunnen worden misbruikt. OpenAI verwijst specifiek naar de VS, waar eind dit jaar presidentsverkiezingen worden gehouden en de verkiezingsstrijd inmiddels is losgebarsten.
Als de tool in de toekomst uitkomt, dan wil OpenAI ook een lijst opstellen met stemmen die niet mogen worden gekloond.
Alles bij de bron; Tweakers
Aanvulling [bron Volkskrant]
OpenAI is niet het eerste AI-bedrijf dat dit mogelijk maakt. Elevenlabs doet het al veel langer, en dit product is wel voor iedereen te gebruiken.
Tijdens de Democratische voorverkiezingen in New Hampshire was er nog ophef ontstaan nadat een gekloonde versie van Joe Bidens stem had opgeroepen om niet naar de stembus te trekken. In de nasleep daarvan nam de Amerikaanse overheid regelgeving aan die door artificiële intelligentie gegenereerde telefoongesprekken verbiedt.