La nuova AI inquietante può simulare perfettamente la tua voce dopo averla ascoltata per 3 secondi

La nuova AI inquietante può simulare perfettamente la tua voce dopo averla ascoltata per 3 secondi

La tecnologia moderna ha rivoluzionato il modo in cui facciamo le cose. Anche la versione più elementare degli smartphone nelle tasche della maggior parte delle persone o nei dispositivi domestici intelligenti nei nostri salotti ha una quantità impressionante di capacità, specialmente se si considera che puoi controllarli semplicemente parlando, grazie all'intelligenza artificiale (AI). Ma anche se i computer hanno progredito per aiutare a semplificare le nostre vite, stanno anche entrando in un nuovo territorio quando diventano in grado di imitare il comportamento umano e persino pensare da soli. E ora, una nuova forma inquietante di AI può simulare perfettamente la tua voce dopo averla ascoltata per soli tre secondi. Continua a leggere per saperne di più sulla tecnologia rivoluzionaria.

Leggi questo successivo: non addebitare mai il tuo telefono Android in questo modo, dicono gli esperti.

Microsoft ha sviluppato un nuovo tipo di intelligenza artificiale che può simulare perfettamente la tua voce.

Shutterstock / Soloviova liudmyla

Abbiamo fatto affidamento su macchine per rendere la nostra vita quotidiana in un modo o nell'altro. Ma cosa succede se un computer potesse intervenire e imitare il modo in cui parli senza che altri se ne accorgono?

La scorsa settimana, i ricercatori di Microsoft hanno annunciato di aver sviluppato una nuova forma di intelligenza artificiale text-to-speech. La tecnologia può simulare la voce di una persona usando una clip audio di tre secondi, anche raccogliendo e preservando il tono emotivo dell'originale altoparlante e i suoni acustici dell'ambiente in cui stanno registrando. Il team afferma che il modello potrebbe essere utile per la creazione di vocalizzazioni automatiche di testo, anche se comporta potenziali rischi di dupe altamente sofisticati simili ai video di DeepFake.

La società afferma che la nuova tecnologia si basa su un "modello di lingua codec neurale."

Shutterstock / Fizkes

Nel suo documento che discute della nuova tecnologia, Microsoft Dubs Vall-E un "modello di lingua codec neurale."Ciò significa che mentre il software tradizionale Testo-to-Speech (TTS) prende parole scritte e manipola le forme d'onda per generare vocalizzazioni, l'IA può raccogliere elementi sottili di una voce e suggerimenti audio specifici che lo aiutano a creare una ricreazione affidabile di un persona che parla di qualsiasi frase che viene alimentata, secondo il sito Web Interessante ingegneria.

"Per sintetizzare il discorso personalizzato (E.G., zero-shot TTS), VALL-E generates the corresponding acoustic tokens conditioned on the acoustic tokens of the 3-second enrolled recording and the phoneme prompt, which constrain the speaker and content information respectively," the team explains in their paper. "Infine, i token acustici generati vengono utilizzati per sintetizzare la forma d'onda finale con il corrispondente decodificatore codec neurale."

Correlati: per informazioni più aggiornate, iscriviti alla nostra newsletter quotidiana.

Il team ha usato oltre 60.000 ore di discorso registrato per addestrare la nuova AI.

Michael Julius Foto / Shutterstock

Per sviluppare il nuovo modello, il team afferma di aver utilizzato circa 60.000 ore di discorso registrato in inglese da oltre 7000 singoli oratori di una biblioteca audio assemblata da Meta noto come Librilight. Nella maggior parte dei casi, le registrazioni sono state estratte dalle letture di audiolibri a dominio pubblico memorizzato su Librivox, riferisce ARS Technica. Nelle sue prove, il team ha affermato che Vall-E ha bisogno della voce nel campione di tre secondi per assomigliare a una delle voci dai suoi dati di allenamento per produrre un risultato convincente.

Il team sta ora mettendo in mostra il proprio lavoro pubblicando esempi specifici del software in azione su una pagina GitHub. Ognuno fornisce una clip di tre secondi della voce di un diffusore che leggono il testo casuale e una "verità di terra", che è un esempio registrato del diffusore che legge una frase da usare per il confronto. Forniscono quindi una registrazione "basale" per mostrare come il software TTS tipico genererebbe audio parlato e una versione "Vall-E" della registrazione per il confronto con i due precedenti.

Mentre i risultati non sono del tutto perfetti, mostrano alcuni esempi molto convincenti in cui il discorso generato dalla macchina sembra incredibilmente umano. I ricercatori aggiungono anche che oltre a imitare l'inflessione e l'emozione, il software può anche replicare l'ambiente in cui l'audio di base è registrato per esempio, facendo sembrare che qualcuno parlasse all'aperto, in una sala echeggianti o su una telefonata.

Finora, Microsoft non ha rilasciato il programma per altri per testare o sperimentare.

istock

Il team di ricerca conclude il loro documento dicendo che prevedono di aumentare la quantità di dati di formazione per aiutare il modello a migliorare i suoi stili di lingua e diventare più bravi a imitare la voce umana. Ma per il momento, Microsoft ha anche trattenuto dal rendere disponibile il nuovo software per gli sviluppatori o il pubblico in generale per test-potenti a causa della sua capacità di ingannare le persone o essere utilizzata per scopi nefasti. AE0FCC31AE342FD3A1346EBB1F342FCB

"Poiché Vall-E potrebbe sintetizzare il discorso che mantiene l'identità degli altoparlanti, può comportarsi potenziali rischi nell'uso improprio del modello, come l'identificazione della voce di spoofing o impersonando un oratore specifico", hanno scritto gli autori nella loro conclusione. "Per mitigare tali rischi, è possibile creare un modello di rilevamento per discriminare se una clip audio sia stata sintetizzata da Vall-E. Metteremo in pratica anche i principi di Microsoft AI quando sviluppiamo ulteriormente i modelli."