Il n’est pas secret que l’IA devient de plus en plus réaliste : Des entreprises comme OpenAI créent des outils capables de reproduire des images, de l’audio et des vidéos d’une manière de plus en plus difficile à distinguer dans l’instant. Mais alors qu’il est déjà préoccupant que certains de ces programmes soient accessibles au public, il est encore plus inquiétant d’apprendre l’existence d’un outil qui est tellement bon qu’il est caché aux autres.
Vall-E 2 peut voler votre voix
Comme l’a rapporté TechSpot, Microsoft a créé une nouvelle version de son “modèle linguistique par codec neural”, Vall-E, désormais appelé Vall-E 2. Microsoft a détaillé les avancées de Vall-E 2 dans un article de blog, mettant en lumière certaines étapes clés de ce dernier modèle. Principalement, Vall-E 2 atteint la “parité humaine”, ce qui semble être une manière complexe de dire : “Les sorties de notre modèle ressemblent à de véritables humains.” Ayez peur.
Vall-E 2 semble réaliser deux améliorations clés par rapport à Vall-E : le nouveau modèle ne souffre pas du problème de “boucle infinie” rencontré par l’original lors du traitement de tokens répétés. Le nouveau modèle prend en compte les tokens répétés, et est donc capable de décoder un échantillon qui les contient. De plus, Vall-E 2 réduit la longueur d’une séquence donnée en regroupant des codes codec, ce que Microsoft affirme à la fois augmenter la vitesse d’interférence et éviter les problèmes qui surgissent lors de la modélisation de longues séquences.
Si tout cela semble un peu technique, peut-être que ceci ne le sera pas : Vall-E 2 améliore Vall-E en “robustesse de la parole, naturalité et similitude avec le locuteur”, et, selon Microsoft, est le premier de sa catégorie à atteindre la parité humaine dans ces domaines. En fait, l’entreprise déclare : “VALL-E 2 peut générer un discours précis et naturel dans la voix exacte de l’orateur original, comparable à une performance humaine.”
Ce n’est pas juste une théorie
Vous n’avez pas seulement à lire à propos de Vall-E 2 pour croire à sa performance : Microsoft offre des exemples de la façon dont Vall-E 2 peut prendre un enregistrement audio d’une voix et le reproduire lorsqu’on lui demande un nouveau texte. L’entreprise a également fourni des exemples du modèle complétant une phrase après avoir reçu des segments d’un enregistrement, en morceaux de trois, cinq et dix secondes. Cela montre la capacité du modèle à prendre un exemple très court d’une voix et à le reproduire avec un texte qui n’apparaît pas dans l’enregistrement original.
Il y a encore plein de particularités que l’on pourrait s’attendre à trouver avec tout modèle de synthèse vocale (prononciations incorrectes, discours hésitant, etc.), mais il ne fait aucun doute que les exemples de Vall-E 2 sont non seulement souvent réalistes, mais correspondent très étroitement à la voix de l’échantillon original. Il fonctionne particulièrement bien lorsqu’on lui donne un enregistrement plus long d’une voix : s’il reçoit trois secondes d’un enregistrement, le résultat est déjà impressionnant, mais lorsqu’il reçoit un enregistrement de cinq ou, surtout, de dix secondes, le résultat peut être remarquablement réaliste.
Si vous cliquez sur les exemples vous-même, vérifiez à quel point Vall-E 2 correspond bien à l’enregistrement de dix secondes lorsqu’il récite “Ma vie a beaucoup changé” dans la section “VCTK Samples”. Je n’ai aucune expérience en formation de systèmes d’IA, mais à mon oreille, le modèle capte parfaitement la voix rauque de l’orateur dans l’échantillon, en particulier après avoir reçu le clip complet de dix secondes. Il est dérangeant d’entendre l’orateur original lire une certaine phrase, puis d’entendre le modèle prononcer une nouvelle phrase dans une voix qui correspond essentiellement à celle de l’orateur.
Les risques de Vall-E 2
Mais si cela vous inquiète un peu, vous n’êtes pas seul. Microsoft est conscient que son modèle pourrait être dangereux s’il est utilisé de manière malveillante : dans une déclaration éthique au bas de l’article, l’entreprise reconnait que, bien que Vall-E 2 puisse être utilisé pour une variété de tâches positives, il pourrait également être utilisé pour imiter une personne spécifique. Microsoft indique que le modèle est destiné à être utilisé avec des utilisateurs consentants qui comprennent que leur voix est reproduite, et que le modèle devrait avoir un protocole pour vérifier le consentement avant de traiter une demande. Cela dit, il ne semble pas qu’un tel protocole existe réellement pour le moment, ce qui explique probablement pourquoi Microsoft n’a “pas de projet d’incorporer VALL-E 2 dans un produit ou d’élargir son accès au public”.
Les exemples ici sont basés sur des échantillons vocaux des ensembles de données LibriSpeech et VCTK, et non sur des échantillons enregistrés par Microsoft eux-mêmes. En tant qu’observateur extérieur, il n’est pas clair comment ce modèle performerait réellement s’il recevait des enregistrements de, par exemple, le Président Biden, Elon Musk ou votre patron. Cependant, si nous supposons que Vall-E 2 peut générer une sortie réaliste avec un échantillon de dix secondes, imaginez à quel point sa sortie pourrait être réaliste lorsqu’on lui fournirait des heures d’échantillons. Couplé à un bon modèle vidéo IA, cela pourrait créer un parfait terrain pour générer de la désinformation, juste à temps pour les saisons électorales à travers le monde.