IA,  Numérique

L’Intelligence Artificielle VALL-E peut imiter votre voix en trois secondes

Publié par Nexus, le 30 janvier 2023

Microsoft a récemment dévoilé une technologie d’IA appelée VALL-E qui peut cloner votre voix à partir d’un enregistrement audio de trois secondes.

Ces derniers mois, de nombreuses technologies d’intelligence artificielle (IA) ont fait parler d’elles. Capables de créer des images, des illustrations ou même des vidéos en partant de description textuelle, elles impressionnent ou effraient par leurs capacités grandissantes.

Cloné en trois secondes

VALL-E, le nouveau modèle de langage pour synthèse vocale (text-to-speech) dévoilé par Microsoft, qui a été entraîné sur 60 000 heures de parole en anglais, peut simuler votre voix, avec un ton et une émotion réalistes en fonction du contexte, et cela à partir de seulement trois secondes d’échantillon audio. Seule limite, VALL-E peut parfois mal prononcer, oublier ou doublonner sur certains mots. Un problème qui sera sûrement corrigé dans les prochaines versions. Par ailleurs, l’IA aurait beaucoup de mal à apprendre des accents prononcés.

L’IA, un danger 

L’outil est actuellement indisponible pour un usage public, mais il soulève déjà des questions de sécurité et d’éthique, puisqu’il peut générer n’importe quel texte émanant de la voix de n’importe qui. Dans une note sur l’éthique, les développeurs de l’IA alertent sur le risque de détournements possibles. « Puisque VALL-E peut synthétiser la parole en conservant l’identité du locuteur, il peut comporter des risques de mauvaise utilisation du modèle, comme l’usurpation de l’identification vocale ou celle de l’identité d’un locuteur spécifique », anticipent-ils. Si le modèle venait à être utilisé publiquement, « il devrait inclure un protocole pour s’assurer que le locuteur approuve l’utilisation de sa voix ».

Un marché en plein essor

VALL-E est le dernier-né d’une famille d’IA aux capacités impressionnantes. On peut citer DALL-E 2, qui peut créer instantanément des images sur tous les thèmes et dans tous les styles imaginables, ou encore ChatGPT, qui permet de générer sur demande différents types de textes (articles, dissertations, lettres, scénarios…) qui a fait beaucoup parler de lui ces dernières semaines.

À l’ère du DeepFace et des fake news, ces nouvelles technologies ont de quoi inquiéter. Dans la guerre entre la Vérité et le Mensonge, ce dernier vient de s’équiper d’une arme redoutable…

Source : https://www.nexus.fr/actualite/news/vall-e/