Plus tôt cette année, OpenAI—les créateurs de ChatGPT—ont annoncé Sora, un générateur de vidéos IA. Certaines des démonstrations présentées par l’entreprise étaient hyper-réalistes, allant de chiots jouant dans la neige à la vue depuis une voiture de métro traversant un paysage urbain. En bref, c’était à la fois impressionnant et terrifiant, comme je l’ai expliqué dans mes réflexions initiales ici.
Depuis, les nouvelles concernant Sora ont été plutôt calmes : l’entreprise n’a pas rendu la plateforme disponible pour des tests publics, donc nous n’avons pas eu beaucoup d’expériences concrètes à partir desquelles travailler. Cela change cette semaine. Non seulement OpenAI rend Sora plus largement accessible, mais ils ouvrent leur générateur de vidéos IA à quiconque possédant un compte ChatGPT Plus. Les choses s’apprêtent à devenir folles.
Quoi de neuf avec Sora
OpenAI a fait l’annonce lundi, suite à une révélation précoce par Marques Brownlee. Si vous avez suivi de près l’annonce originale de Sora, aucun des exemples ici ne va vous choquer : En résumé, Sora peut être invité à générer des vidéos photoréalistes et courtes dans plusieurs situations différentes : OpenAI et Marques Brownlee ont tous deux démontré des prises de vue par drone de falaises, d’animaux dans la nature et de personnes exécutant des tâches « sous caméra ». Mais ce qui est vraiment nouveau aujourd’hui, ce sont plusieurs fonctionnalités qu’OpenAI a ajoutées au programme Sora en général.
Il y a « Storyboard », une sorte de montage vidéo qui vous permet d’assembler différents prompts vidéo pour créer des vidéos plus longues sur un seul sujet. Par exemple, vous pouvez avoir un prompt demandant une grue se tenant dans l’eau, et un autre demandant à ce que cette grue plonge la tête dans l’eau. Ensuite, Sora combinera ces deux prompts en une seule vidéo continue. « Recut » agit également comme un éditeur vidéo, sauf qu’ici, vous pouvez isoler une partie spécifique de votre vidéo et demander à Sora de l’étendre. « Remix » ouvre un nouveau champ de prompt, ce qui vous permet de demander des modifications sur une vidéo existante. (Vous pouvez également choisir la « force » du remix, ce qui affecte la manière dont une partie de la vidéo est changée par rapport à votre prompt.) Enfin, « Blend » vous permet de choisir de transformer le sujet d’une vidéo en un autre. L’exemple de Sora est de faire passer un papillon d’une vidéo à une orchidée d’un second clip.

Crédit : Jake Peterson
Parmi toutes ces nouvelles fonctionnalités, Storyboard semble être la plus intéressante. Il apparaît comme un moyen astucieux d’amener l’IA à générer une scène complexe avec plusieurs actions, car essayer de tout entasser dans un seul prompt risque d’échouer. Remix, aussi, pourrait théoriquement être utile pour peaufiner des éléments d’une vidéo, sans avoir à jeter l’initiale. Mais au final, notre intérêt collectif pour le modèle provient de sa fonction de base : Vous demandez à Sora une idée de vidéo, et il la génère pour vous. Ou vous téléchargez une photo de votre bibliothèque, et Sora anime les sujets inanimés en une scène mouvante.
Sora en action
Lorsque vous soumettez un prompt, votre vidéo est ajoutée à votre « file d’attente » pour traitement. Le temps qu’une vidéo prend pour se générer dépend de vos réglages, y compris la résolution, la durée et le nombre de variations que vous générez : J’ai un plan ChatGPT Plus standard, donc je suis limité à une résolution maximale de 720p et une durée maximale de cinq secondes. Les utilisateurs de ChatGPT Pro peuvent augmenter cette résolution jusqu’à 1080p, créer des vidéos de 20 secondes maximum et générer jusqu’à quatre variations de leur vidéo.
Malheureusement pour moi, il semble que tout le monde essaie actuellement d’utiliser Sora à ce moment-là. Ma première et unique tentative de prompt (« plan de suivi d’un taxi circulant dans un centre-ville ») est restée en attente de traitement pendant tout le temps que j’écrivais ce texte. En fait, OpenAI a suspendu la création de comptes pour le moment, alors que trop de personnes essaient d’accéder au générateur de vidéos.
Ma vidéo a finalement été générée, et elle était rugueuse. La qualité vidéo du taxi et de la ville était plutôt bonne (encore une fois, très photoréaliste), mais les mouvements du taxi étaient erratiques. D’abord, il a conduit en marche arrière, puis s’est transformé en une voiture faisant face dans une direction différente, avant de s’enfuir alors qu’un autre taxi apparaissait au premier plan. (Mon taxi original a également disparu dans l’air, tandis que le nouveau taxi n’avait pas de coffre ; plutôt, il avait deux avants.)
Comme il faut beaucoup de temps à Sora pour générer des vidéos, il est maintenant utile de regarder quelqu’un comme Marques Brownlee, qui a passé un certain temps à tester cet outil. Dans sa critique de Sora, il constate que l’outil a toujours du mal à éviter les pièges typiques des vidéos générées par IA : Les vidéos peuvent sembler photoréalistes, mais elles perdent du réalisme dans le mouvement. Sora a souvent du mal à déterminer quelle jambe doit être devant et laquelle doit être derrière lors des cycles de marche, ou « oublie » complètement des objets. Lorsque Brownlee a demandé une vidéo d’un critique technologique testant un smartphone, le critique tenait deux smartphones dans les mains et l’un d’entre eux disparaissait sans raison. Certains aspects d’une vidéo peuvent tourner au ralenti, tandis que d’autres fonctionnent à une vitesse normale, ce qui paraît étrange aux yeux. Ces glitches sont répandus dans la plupart des sorties de Sora que j’ai vues : Si vous les cherchez, vous les verrez, et ils attirent l’attention sur l’artificialité de la vidéo.
Cela est également vrai avec les vidéos « de faible qualité », comme les générations d’images de CCTV ou de caméras de sécurité. Les voitures se rentrent dedans et disparaissent, ou les gens se déplacent de manière irréaliste. Mais je dois dire, la faible qualité de ces vidéos rend plus facile la falsification : Si Sora peut saisir la physique, les gens vont s’en donner à cœur joie pour inventer des vidéos de CCTV qui n’existent pas.

Crédit : Marques Brownlee/YouTube
Selon l’expérience de Brownlee, les choses que Sora fait actuellement le mieux ne sont pas du tout réalistes : Les graphiques animés, par exemple, ont généralement l’air bien, tout comme certains clips d’animations et de personnages animés. Une animation esquissant l’Empire State Building ressemble à quelque chose provenant d’une intro de série Netflix, par exemple. Et lorsque Brownlee a téléchargé une image de personnages de feuilles animées générée par DALL-E, Sora a animé l’image d’une manière relativement crédible. Il est un peu plus facile d’ignorer les imperfections lorsque la vidéo ne prétend pas être réelle.
Que pensez-vous jusqu’ici ?
Sora semble également être assez bon pour générer des prises de vue par drone et des plans de suivi : Un plan de drone du Mont Fuji ou du Golden Gate Bridge paraît fluide et photoréaliste. Si vous regardez de près, vous pourriez remarquer des glitches et des imperfections, comme des vagues qui ne se comportent pas tout à fait comme elles devraient, mais vous pourriez probablement glisser ces images dans des émissions et des films sans que beaucoup (ou la plupart) de gens ne s’en rendent compte.
Où allons-nous à partir de là ?
Sora m’a fait peur en février lors de son annonce. Dans les dix mois qui ont suivi, j’ai toujours peur, mais pas parce que les vidéos sont beaucoup meilleures. En fait, rien qu’en se basant sur ce que je vois aujourd’hui, la qualité semble à peu près la même—bien qu’avec quelques nouvelles fonctionnalités IA que vous pouvez utiliser pour peaufiner ces vidéos. Le réalisme est toujours là quand il est là, tout comme les défauts, qui sont nombreux.
Ce qui m’inquiète, c’est l’accessibilité : Une fois qu’OpenAI aura traitée la demande, Sora sera disponible pour quiconque possède un abonnement ChatGPT Plus. Pour 20 $, vous avez accès à un outil capable de générer jusqu’à 50 vidéos de cinq secondes par mois. Cinq secondes, ce n’est évidemment pas très long, donc sans une certaine ruse, ces vidéos ne sont probablement pas celles qui feront le plus de dégâts.
C’est là que ChatGPT Pro entre en jeu. Ce plan est beaucoup plus cher (200 $ par mois), mais pour ces 200 $, vous pouvez créer jusqu’à 500 vidéos, chacune pouvant aller jusqu’à 1080p et jusqu’à 20 secondes de longueur. OpenAI dit que vous pouvez également télécharger ces vidéos sans watermark, ce qui rendra la détection beaucoup plus difficile.
Bien sûr, la plupart d’entre nous ne s’abonneront pas à Pro pour cela, mais 200 $ ne dissuade pas vraiment les acteurs malveillants qui souhaitent diffuser de la désinformation. Imaginez la prochaine crise polarisante majeure, alimentée par un flot de vidéos qui « prouvent » ce qui s’est passé d’une manière ou d’une autre, alors que ces vidéos ne sont en réalité pas réelles du tout. OpenAI a des fonctionnalités de sécurité intégrées ici, comme le blocage des matériaux protégés ou des figures notables d’être incorporés dans une vidéo, mais nous verrons comment ces obstacles fonctionnent dans la pratique.
Comment essayer Sora
À l’heure actuelle, la création de compte n’est pas disponible pour Sora, mais cela pourrait changer prochainement. Si vous êtes intéressé par l’essai de Sora par vous-même, rendez-vous sur sora.com. À partir de là, cliquez sur se connecter, puis authentifiez-vous avec votre compte ChatGPT. Rappelez-vous, vous avez besoin d’un compte ChatGPT Plus (20 $ par mois) ou d’un compte ChatGPT Pro (200 $ par mois) pour utiliser Sora.