Ce billet fait partie de la série « Exposing AI » de Cours Technologie. Nous explorons six types différents de médias générés par l’IA, et mettons en évidence les particularités, les sous-produits et les caractéristiques communes qui vous aident à faire la différence entre le contenu créé par l’homme et celui généré par une IA.
Les entreprises d’IA sont enthousiastes à propos des générateurs vidéo : elles vantent les possibilités créatives qu’offrent ces nouveaux modèles et se réjouissent des résultats impressionnants qu’ils peuvent produire. De mon point de vue, cependant, une technologie qui permet à quiconque de créer des vidéos réalistes avec une simple commande n’est ni amusante, ni prometteuse, mais terrifiante. Voulez-vous vraiment vivre dans un monde où chaque vidéo que vous voyez en ligne pourrait avoir été créée de toutes pièces par une IA ? Que cela vous plaise ou non, c’est vers cela que nous nous dirigeons.
Lorsque vous donnez aux acteurs malveillants les outils pour manipuler des vidéos à un degré tel que beaucoup, sinon la plupart, des gens croiront qu’elles sont réelles au premier coup d’œil, vous jetez de l’essence sur un feu qui brûle depuis que la première personne a menti sur Internet. Il est maintenant plus important que jamais d’être vigilant sur ce que nous voyons en ligne, et d’examiner avec un œil critique toutes les vidéos qui prétendent représenter la réalité—surtout lorsque cette réalité est censée nous provoquer ou influencer notre vision du monde.
Les vidéos générées par l’IA ne se ressemblent pas toutes
Il existe vraiment deux types de vidéos générées par l’IA à surveiller actuellement. Les premières sont des vidéos entièrement générées par des modèles d’IA, des séquences complètes qui n’utilisent aucune séquence réelle et qui n’ont jamais existé avant d’être produites. Pensez au modèle Sora d’OpenAI, qui est capable de créer des vidéos courtes mais de haute qualité qui pourraient facilement tromper les gens en leur faisant croire qu’elles sont réelles. Heureusement pour nous, Sora est encore en développement et n’est pas encore disponible au public, mais il existe d’autres outils que les initiés peuvent utiliser pour générer ces vidéos à partir de zéro.
Ce qui est plus pertinent à ce stade et plus préoccupant pour les implications à court terme, ce sont les vidéos modifiées par l’IA. Pensez aux deepfakes : de vraies vidéos qui utilisent l’IA pour superposer le visage d’une personne sur celui d’une autre, ou pour altérer un visage réel afin de correspondre à un contenu audio manipulé.
Nous allons couvrir les moyens d’identifier les deux types de contenu vidéo généré par l’IA : à mesure que les générateurs vidéo d’IA s’améliorent et deviennent plus accessibles, vous pourriez commencer à voir ces vidéos apparaître en ligne de la même manière que les images générées par l’IA ont explosé. Restez vigilants.
Comment fonctionnent les générateurs vidéo d’IA
Comme d’autres modèles d’IA générative, les générateurs vidéo d’IA sont alimentés par une énorme quantité de données pour fonctionner. Alors que les modèles d’IA d’image sont formés sur des images individuelles et apprennent à reconnaître des motifs et des relations sur des pièces statiques, les générateurs vidéo d’IA sont formés pour rechercher la relation entre plusieurs images, et comment ces images changent dans une séquence. Une vidéo, après tout, est simplement une série d’images individuelles, diffusées à une vitesse qui crée l’illusion de mouvement. Si vous voulez qu’un programme génère des vidéos à partir de rien, vous devez non seulement lui permettre de générer les sujets de ces vidéos, mais aussi de comprendre comment ces sujets doivent changer d’une image à l’autre.
Les programmes deepfake sont spécifiquement formés sur des visages, et sont conçus pour imiter les mouvements et les émotions de la vidéo qu’ils superposent. Ils utilisent souvent un réseau antagoniste génératif (GAN), qui oppose deux modèles d’IA : un qui génère du contenu IA, et un autre qui tente d’identifier si ce contenu est généré par l’IA. En revanche, un modèle comme Sora est, en théorie, capable de générer des vidéos sur à peu près n’importe quel sujet que vous pouvez lui demander. Sora est ce qu’on appelle un modèle de diffusion, qui ajoute “du bruit” (en réalité des pixels statiques) aux données d’entraînement jusqu’à ce que l’image originale soit disparue. À partir de là, le modèle essaiera de créer une nouvelle version de ces données à partir du bruit, ce qui l’entraîne à créer du nouveau contenu de toutes pièces.
Les technologies de génération vidéo totale par IA en sont encore à leurs débuts, et bien que la technologie deepfake soit efficace, elle n’est pas parfaite. Il existe des limitations qui pourraient ne pas être présentes dans les futures itérations de ces technologies, mais à ce jour, il existe des indices que vous pouvez rechercher pour savoir si cette vidéo que vous regardez est réellement réelle, ou quelque chose de manipulé.
Les visages ne semblent pas tout à fait réels
La technologie permettant de superposer le visage d’une personne sur celui d’une autre est impressionnante, mais elle est loin d’être parfaite. Dans de nombreux (sinon la plupart) des cas, un deepfake présente des signes de falsification évidents. Souvent, cela ressemble à un photoshop médiocre : le visage ne se fond pas correctement dans le reste de la tête de la personne, l’éclairage ne correspond pas au décor dans lequel il se trouve, et l’ensemble présente un effet de vallée dérangeante.
Si vous regardez une vidéo d’une personne notable disant ou faisant quelque chose de controversé, regardez vraiment son visage : est-il possible que l’IA y soit impliquée ? Cette vidéo de « President Obama » disant des choses absurdes montre certaines des imperfections. Ce deepfake a été réalisé il y a six ans, mais démontre certains des défauts visuels notables pour lesquels ce type de vidéo d’IA modifiée est connu :
Les bouches ne correspondent pas à la parole
De même, un autre défaut de la technologie deepfake actuelle est sa difficulté à faire correspondre les mouvements des lèvres du faux visage avec la parole sous-jacente—surtout si la parole est artificielle également.
Regardez ce deepfake d’Anderson Cooper de l’année dernière : Le faux visage est plus réaliste que la vidéo d’Obama ci-dessus, mais les mouvements des lèvres ne correspondent pas à la parole que l’on a donnée à l’IA Anderson :
Beaucoup de deepfakes circulant sur les réseaux sociaux sont si mal réalisés qu’ils sont des déchets évidents d’IA si vous savez ce que vous cherchez. Beaucoup de gens ne le savent pas, donc ils voient une vidéo d’un politicien disant quelque chose qu’ils n’aiment pas et supposent que c’est vrai—ou sont suffisamment amusés pour ne pas s’en soucier.
Recherchez les bugs et les artefacts
Comme les générateurs d’images IA, les générateurs vidéo d’IA produisent des vidéos avec des bugs étranges et des artefacts. Vous pourriez remarquer que les feuilles d’un arbre clignotent alors que la caméra se déplace vers elles, ou des personnes marchant en arrière-plan à une fréquence d’images différente de celle du reste de la vidéo. Bien que la vidéo ci-dessous semble réaliste à première vue, elle regorge de ces bugs, en particulier dans les arbres. (Remarquez aussi comment les voitures sur la route à gauche disparaissent constamment.)
Mais le pire de tous ? Les deepfakes. Ces vidéos ont souvent l’air horribles, comme si elles avaient été téléchargées et re-téléchargées 1 000 fois, perdant ainsi toute fidélité dans le processus. C’est fait exprès pour tenter de masquer les défauts présents dans la vidéo. La plupart des vidéos deepfake se révéleraient instantanément si elles étaient présentées en 4K, car la vidéo haute résolution mettrait en évidence tous les défauts susmentionnés. Mais lorsque vous réduisez la qualité, il devient plus facile de cacher ces imperfections, et donc plus facile de tromper les gens en leur faisant croire que la vidéo est réelle.
La physique est incorrecte
Une caméra vidéo capturera le monde tel qu’il est, du moins tel que le capteur et l’objectif de la caméra le permettent. Un générateur vidéo d’IA, en revanche, crée des vidéos en fonction de ce qu’il a déjà vu, mais sans contexte supplémentaire. Il ne sait en réalité rien, donc il comble les lacunes du mieux qu’il peut. Cela peut conduire à des physiques bizarres dans les vidéos générées par l’IA.
Par exemple, Sora a généré une vidéo d’une église sur une falaise le long de la côte amalfitaine. À première vue, cela semble assez convaincant. Cependant, si vous vous concentrez sur l’océan, vous verrez que les vagues se déplacent réellement loin du rivage, dans la direction opposée à celle dans laquelle elles devraient se déplacer.
Le générateur a également produit une vidéo en surface assez convaincante d’un homme courant sur un tapis de course. Le grand indice ici est que l’homme court “vers l’avant” tout en faisant face à l’arrière du tapis de course, car le modèle ne comprend pas exactement comment fonctionnent les tapis de course. Mais en regardant de près, vous pouvez voir que le pas de l’homme n’est pas normal : c’est comme si la moitié supérieure de son corps s’arrêtait de temps à autre, tandis que la moitié inférieure continue d’avancer. Dans le monde réel, cela ne serait pas vraiment possible, mais Sora ne comprend pas réellement comment fonctionnent les lois de la physique liées à la course.
Dans une autre vidéo, des “archéologues” découvrent une chaise en plastique dans les dunes du désert, la tirant et la dépoussiérant. Bien que cela soit une demande compliquée pour le modèle, et qu’il rende certains moments réalistes, la physique impliquée dans l’ensemble de l’entreprise est totalement fausse : la chaise apparaît comme par magie, la personne qui la tient la porte d’une manière qu’aucune personne ne ferait jamais, et la chaise finit par flotter seule, se déformant en quelque chose de complètement différent à la fin du clip.
Il y a trop de membres
Les modèles d’IA produisant ce contenu vidéo ne comprennent pas combien de membres vous êtes censé avoir. Ils établissent la connexion que les membres se déplacent entre les images, mais ne saisissent pas tout à fait qu’il devrait s’agir des mêmes membres tout au long de la scène.
Dans cet exemple, regardez très attentivement le chat : vers la fin du clip, il génère soudainement une troisième patte, car le modèle ne comprend pas que ce genre de chose ne se produit généralement pas dans le monde réel. À l’inverse, alors que la femme se retourne dans son lit, son “bras” semble se transformer en draps.
Les choses n’ont tout simplement pas de sens
Des membres supplémentaires n’ont pas beaucoup de sens, mais souvent c’est plus que cela dans une vidéo d’IA. Encore une fois, ces modèles ne savent réellement rien : ils essaient simplement de reproduire la requête en fonction de l’ensemble de données sur lequel ils ont été formés. Ils savent qu’une ville sur la côte amalfitaine devrait avoir beaucoup d’escaliers en pierre, par exemple, mais il ne semble pas qu’ils comprennent que ces escaliers doivent mener quelque part. Dans la vidéo de démonstration d’OpenAI, beaucoup de ces escaliers sont placés de manière désordonnée, sans destination réelle.
Dans cette même vidéo, regardez les “personnes” dans la foule. Au début, cela peut sembler être une bande de touristes se promenant en ville, mais certains de ces touristes disparaissent dans l’air. Certains semblent descendre des escaliers, alors qu’ils n’utilisent pas les escaliers qui mènent nulle part : ils sont simplement “en train de descendre” sur le sol.
Il est important de prendre ce que vous voyez sur Internet avec un grain de sel depuis un certain temps. Vous n’avez pas besoin d’IA pour écrire des billets de blog trompeurs qui déforment la vérité, ou pour manipuler un clip vidéo afin de présenter l’histoire de la manière que vous souhaitez. Mais la vidéo IA est différente : non seulement la vidéo elle-même est manipulée, mais l’ensemble pourrait n’avoir jamais eu lieu. C’est dommage que nous devions aborder Internet (et le monde en général) de manière aussi cynique, mais lorsqu’une simple requête peut produire une vidéo entière à partir de rien, quel autre choix avons-nous ?