courstechnologie.comcourstechnologie.com
  • Android
  • Apple
  • Applications Mobiles
  • IA
  • Internet
  • Logiciels
  • Sécurité
Search
  • Informatique
  • Confidentialité
  • Conditions d’utilisation
  • Qui sommes-nous ?
  • contacter-nous
  • Politique de confidentialité
© 2022 Foxiz News Network. Ruby Design Company. All Rights Reserved.
Reading: Microsoft dévoile Vall-E 2, sa nouvelle IA
Share
Sign In
Notification Show More
Font ResizerAa
courstechnologie.comcourstechnologie.com
Font ResizerAa
  • Android
  • Apple
  • Applications Mobiles
  • IA
  • Internet
  • Logiciels
  • Sécurité
Search
  • Android
  • Apple
  • Applications Mobiles
  • IA
  • Internet
  • Logiciels
  • Sécurité
Have an existing account? Sign In
Follow US
  • Conditions d’utilisation
  • Qui sommes-nous ?
  • contacter-nous
  • Politique de confidentialité
© 2022 Foxiz News Network. Ruby Design Company. All Rights Reserved.
courstechnologie.com > IA > Microsoft dévoile Vall-E 2, sa nouvelle IA
IA

Microsoft dévoile Vall-E 2, sa nouvelle IA

Cours Technologie
Last updated: janvier 28, 2025 1:45 pm
Cours Technologie
Share
Microsoft dévoile Vall-E 2, sa nouvelle IA
SHARE
Contents
Vall-E 2 peut voler votre voixCe n’est pas juste une théorieLes risques de Vall-E 2

Il n’est pas secret que l’IA devient de plus en plus réaliste : Des entreprises comme OpenAI créent des outils capables de reproduire des images, de l’audio et des vidéos d’une manière de plus en plus difficile à distinguer dans l’instant. Mais alors qu’il est déjà préoccupant que certains de ces programmes soient accessibles au public, il est encore plus inquiétant d’apprendre l’existence d’un outil qui est tellement bon qu’il est caché aux autres.

Vall-E 2 peut voler votre voix

Comme l’a rapporté TechSpot, Microsoft a créé une nouvelle version de son “modèle linguistique par codec neural”, Vall-E, désormais appelé Vall-E 2. Microsoft a détaillé les avancées de Vall-E 2 dans un article de blog, mettant en lumière certaines étapes clés de ce dernier modèle. Principalement, Vall-E 2 atteint la “parité humaine”, ce qui semble être une manière complexe de dire : “Les sorties de notre modèle ressemblent à de véritables humains.” Ayez peur.

Vall-E 2 semble réaliser deux améliorations clés par rapport à Vall-E : le nouveau modèle ne souffre pas du problème de “boucle infinie” rencontré par l’original lors du traitement de tokens répétés. Le nouveau modèle prend en compte les tokens répétés, et est donc capable de décoder un échantillon qui les contient. De plus, Vall-E 2 réduit la longueur d’une séquence donnée en regroupant des codes codec, ce que Microsoft affirme à la fois augmenter la vitesse d’interférence et éviter les problèmes qui surgissent lors de la modélisation de longues séquences.

Si tout cela semble un peu technique, peut-être que ceci ne le sera pas : Vall-E 2 améliore Vall-E en “robustesse de la parole, naturalité et similitude avec le locuteur”, et, selon Microsoft, est le premier de sa catégorie à atteindre la parité humaine dans ces domaines. En fait, l’entreprise déclare : “VALL-E 2 peut générer un discours précis et naturel dans la voix exacte de l’orateur original, comparable à une performance humaine.”

Ce n’est pas juste une théorie

Vous n’avez pas seulement à lire à propos de Vall-E 2 pour croire à sa performance : Microsoft offre des exemples de la façon dont Vall-E 2 peut prendre un enregistrement audio d’une voix et le reproduire lorsqu’on lui demande un nouveau texte. L’entreprise a également fourni des exemples du modèle complétant une phrase après avoir reçu des segments d’un enregistrement, en morceaux de trois, cinq et dix secondes. Cela montre la capacité du modèle à prendre un exemple très court d’une voix et à le reproduire avec un texte qui n’apparaît pas dans l’enregistrement original.

Il y a encore plein de particularités que l’on pourrait s’attendre à trouver avec tout modèle de synthèse vocale (prononciations incorrectes, discours hésitant, etc.), mais il ne fait aucun doute que les exemples de Vall-E 2 sont non seulement souvent réalistes, mais correspondent très étroitement à la voix de l’échantillon original. Il fonctionne particulièrement bien lorsqu’on lui donne un enregistrement plus long d’une voix : s’il reçoit trois secondes d’un enregistrement, le résultat est déjà impressionnant, mais lorsqu’il reçoit un enregistrement de cinq ou, surtout, de dix secondes, le résultat peut être remarquablement réaliste.

Si vous cliquez sur les exemples vous-même, vérifiez à quel point Vall-E 2 correspond bien à l’enregistrement de dix secondes lorsqu’il récite “Ma vie a beaucoup changé” dans la section “VCTK Samples”. Je n’ai aucune expérience en formation de systèmes d’IA, mais à mon oreille, le modèle capte parfaitement la voix rauque de l’orateur dans l’échantillon, en particulier après avoir reçu le clip complet de dix secondes. Il est dérangeant d’entendre l’orateur original lire une certaine phrase, puis d’entendre le modèle prononcer une nouvelle phrase dans une voix qui correspond essentiellement à celle de l’orateur.

Les risques de Vall-E 2

Mais si cela vous inquiète un peu, vous n’êtes pas seul. Microsoft est conscient que son modèle pourrait être dangereux s’il est utilisé de manière malveillante : dans une déclaration éthique au bas de l’article, l’entreprise reconnait que, bien que Vall-E 2 puisse être utilisé pour une variété de tâches positives, il pourrait également être utilisé pour imiter une personne spécifique. Microsoft indique que le modèle est destiné à être utilisé avec des utilisateurs consentants qui comprennent que leur voix est reproduite, et que le modèle devrait avoir un protocole pour vérifier le consentement avant de traiter une demande. Cela dit, il ne semble pas qu’un tel protocole existe réellement pour le moment, ce qui explique probablement pourquoi Microsoft n’a “pas de projet d’incorporer VALL-E 2 dans un produit ou d’élargir son accès au public”.

Les exemples ici sont basés sur des échantillons vocaux des ensembles de données LibriSpeech et VCTK, et non sur des échantillons enregistrés par Microsoft eux-mêmes. En tant qu’observateur extérieur, il n’est pas clair comment ce modèle performerait réellement s’il recevait des enregistrements de, par exemple, le Président Biden, Elon Musk ou votre patron. Cependant, si nous supposons que Vall-E 2 peut générer une sortie réaliste avec un échantillon de dix secondes, imaginez à quel point sa sortie pourrait être réaliste lorsqu’on lui fournirait des heures d’échantillons. Couplé à un bon modèle vidéo IA, cela pourrait créer un parfait terrain pour générer de la désinformation, juste à temps pour les saisons électorales à travers le monde.

You Might Also Like

Comment tester les capacités d’IA de votre ordinateur

Reddit bloque les moteurs de recherche autres que Google.

DeepSeek : L’application IA chinoise qui a dépassé ChatGPT

Comment utiliser l’application Math Notes sur iPhone, iPad et Mac

Le GPT-4o Mini : un modèle presque aussi performant que le GPT-4o à un prix réduit.

TAGGED:assistant vocalavancées technologiquesdéveloppement IAefficacitéentreprisesIAinnovationintelligence artificielleMicrosoftMicrosoft AIproduits MicrosofttechnologieTendances technologiquestransformation numériqueVall-E 2

Sign Up For Daily Newsletter

Be keep up! Get the latest breaking news delivered straight to your inbox.
By signing up, you agree to our Terms of Use and acknowledge the data practices in our Privacy Policy. You may unsubscribe at any time.
Share This Article
Facebook Copy Link Print
Share
Previous Article Cette application crée des itinéraires de marche quotidiens pour vous. Cette application crée des itinéraires de marche quotidiens pour vous.
Next Article Enfin, une meilleure application Apple Music pour Mac Enfin, une meilleure application Apple Music pour Mac
Leave a Comment

Laisser un commentaire Annuler la réponse

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Stay Connected

248.1kLike
69.1kFollow
134kPin
54.3kFollow
banner banner
Create an Amazing Newspaper
Discover thousands of options, easy to customize layouts, one-click to import demo and much more.
Learn More

Latest News

macbook pro
2023 Apple MacBook Pro avec puce max Apple M2 (14 pouces, 32 Go de RAM, 1 To SSD) (Azerty French) Silver (rénové)
amazon
AOSU Outdoor Surveillance Camera with Solar Panel, PTZ, Automatic People Tracking, 2K Night Vision, Light and Sound Alarm, Two-Way Audio, Compatible with Alexa/Google
AOSU Outdoor Surveillance Camera with Solar Panel, PTZ, Automatic People Tracking, 2K Night Vision, Light and Sound Alarm, Two-Way Audio, Compatible with Alexa/Google
Sécurité
macbook pro
2021 Apple MacBook Pro avec puce max Apple M1 (14 pouces, 32 Go de RAM, stockage SSD 1 To) (Qwerty espagnol) Silver (rénové)
amazon
REIGY 5MP Outdoor WiFi Surveillance System with 1TB Hard Disk, Video Surveillance Camera Kit 16CH NVR + 4X 1920P Camera, Two-Way Audio, Colorful Night Vision IP66 Waterproof
REIGY 5MP Outdoor WiFi Surveillance System with 1TB Hard Disk, Video Surveillance Camera Kit 16CH NVR + 4X 1920P Camera, Two-Way Audio, Colorful Night Vision IP66 Waterproof
Sécurité

Sign Up for Our Newsletter

Subscribe to our newsletter to get our newest articles instantly!

Quick Link

  • Conditions d’utilisation
  • Qui sommes-nous ?
  • contacter-nous
  • Politique de confidentialité
courstechnologie.comcourstechnologie.com
Follow US
© 2025 Courstechnologie.com. Tous droits reservés.
Gérer le consentement
Pour offrir les meilleures expériences, nous utilisons des technologies telles que les cookies pour stocker et/ou accéder aux informations des appareils. Le fait de consentir à ces technologies nous permettra de traiter des données telles que le comportement de navigation ou les ID uniques sur ce site. Le fait de ne pas consentir ou de retirer son consentement peut avoir un effet négatif sur certaines caractéristiques et fonctions.
Fonctionnel Toujours activé
Le stockage ou l’accès technique est strictement nécessaire dans la finalité d’intérêt légitime de permettre l’utilisation d’un service spécifique explicitement demandé par l’abonné ou l’utilisateur, ou dans le seul but d’effectuer la transmission d’une communication sur un réseau de communications électroniques.
Préférences
Le stockage ou l’accès technique est nécessaire dans la finalité d’intérêt légitime de stocker des préférences qui ne sont pas demandées par l’abonné ou l’utilisateur.
Statistiques
Le stockage ou l’accès technique qui est utilisé exclusivement à des fins statistiques. Le stockage ou l’accès technique qui est utilisé exclusivement dans des finalités statistiques anonymes. En l’absence d’une assignation à comparaître, d’une conformité volontaire de la part de votre fournisseur d’accès à internet ou d’enregistrements supplémentaires provenant d’une tierce partie, les informations stockées ou extraites à cette seule fin ne peuvent généralement pas être utilisées pour vous identifier.
Marketing
Le stockage ou l’accès technique est nécessaire pour créer des profils d’utilisateurs afin d’envoyer des publicités, ou pour suivre l’utilisateur sur un site web ou sur plusieurs sites web ayant des finalités marketing similaires.
Gérer les options Gérer les services Gérer {vendor_count} fournisseurs En savoir plus sur ces finalités
Voir les préférences
{title} {title} {title}
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?