OpenAI a considérablement amélioré les capacités de génération d’images de ChatGPT, dans le cadre d’une mise à jour du modèle GPT-4o introduit en mai dernier. Le nouveau générateur d’images AI amélioré est désormais disponible pour tous les utilisateurs de ChatGPT, bien que l’accès gratuit soit limité, avec des restrictions plus élevées pour le plan ChatGPT Plus à 20 $ par mois. Néanmoins, c’est une amélioration par rapport au lancement initial le 25 mars, où la génération d’images gratuite a été rapidement interrompue en raison d’une forte charge des serveurs.
Il n’est pas clair pour le moment quels sont les limites pour les utilisateurs gratuits et Plus, bien que le CEO Sam Altman ait précédemment déclaré que l’objectif est de permettre aux utilisateurs gratuits de générer trois images par jour.
Il est possible de générer des images via l’interface de ChatGPT depuis un certain temps déjà, bien que le travail ait été confié à l’arrière-plan au modèle d’image DALL-E 3. Désormais, tout sera géré par GPT-4o, pour une expérience plus cohérente et native. En particulier, les utilisateurs ont embrassé la capacité du générateur à imiter le style artistique du Studio Ghibli, bien que la tendance ait également suscité beaucoup de contestations.
D’un point de vue purement technique, de nombreuses améliorations ont été apportées, qui couvrent certaines des domaines dans lesquels les outils de création d’images AI ont généralement eu des difficultés : le rendu de texte, le maintien de la cohérence des personnages à travers les images et le dessin de diagrammes. OpenAI affirme que vous pouvez désormais vous attendre à des résultats plus “précis, exacts, [et] photoréalistes” de vos prompts.
Des images plus réalistes et précises
Crédit : Cours Technologie via ChatGPT
Les images créées avec l’IA présentent souvent un éclat artificiel qui indique qu’elles ont été imaginées par des algorithmes, ce qui devrait être moins évident avec les images GPT-4o. Une des images de démonstration montrées par OpenAI montre une femme écrivant sur un tableau blanc, avec une vue reflétée dessus – tout cela est assez réaliste, bien qu’il faille noter la petite légende en bas qui indique que c’était la meilleure des huit tentatives que ChatGPT a faites avec ce prompt.
Les œuvres d’art créées par l’IA devraient également respecter plus fidèlement les prompts fournis, selon OpenAI. Donc, si vous souhaitez des objets spécifiques à des endroits précis, ou si vous avez besoin de personnes dans certaines positions, alors ces instructions seront apparemment exécutées avec une plus grande fidélité. Un des exemples d’images les plus impressionnantes montre une bande dessinée en quatre cases réalisée par ChatGPT, sans erreurs ou incohérences évidentes.
J’ai essayé de demander à ChatGPT de transformer un roman de Jane Austen en bande dessinée, et de produire une image photoréaliste d’une maison majestueuse avec un jardin, et les résultats étaient impressionnants – même si ce n’était pas tout à fait parfait. Ils sont certainement significativement meilleurs que les images produites auparavant par ChatGPT, bien que le rendu prenne plus de temps (généralement des minutes plutôt que des secondes).
Le texte et les diagrammes sont considérablement améliorés
Crédit : Cours Technologie via ChatGPT
Essayer de faire rendre du texte et des diagrammes avec précision à l’IA a longtemps été un défi : la manière dont ces outils sont construits signifie qu’ils sont beaucoup mieux pour inventer et remixer les images sur lesquelles ils ont été entraînés, plutôt que de reproduire une copie exacte de l’alphabet ou d’une série de rectangles et de flèches.
Le nouveau modèle GPT-4o peut rendre le texte et les diagrammes avec un niveau élevé de détail et de précision, donc vous ne devriez pas voir autant d’erreurs étranges et d’incohérences. Le showreel d’OpenAI comprenait un menu, une invitation, une carte d’embarquement, et un diagramme expliquant l’expérience de la prisme de Newton, tous générés à partir d’un seul prompt textuel.
Lorsque j’ai demandé à ChatGPT de produire une infographie expliquant l’ADN en termes simples, et une couverture de livre avec un titre et un auteur spécifiés, il a suivi le brief plutôt exactement – le graphique était basique mais précis (selon le prompt), et la couverture de livre ressemblait à quelque chose que vous pourriez voir dans un magasin. Tout aussi important, il n’y avait pas d’artefacts étranges ou d’incohérences dans les images.
Cohérence et édition
Crédit : Cours Technologie via ChatGPT
Des limitations de l’édition d’images par ChatGPT ont déjà été abordées, et c’est un autre domaine qui a été amélioré. Il est désormais plus facile de maintenir la cohérence des personnages et des scènes entre les images, de ne modifier que certaines parties d’une image tout en laissant le reste intact, et de créer différentes couches d’une image. Vous pouvez même créer des arrière-plans transparents, si nécessaire, ou spécifier des couleurs à l’aide de codes hexadécimaux.
D’autres améliorations concernent la manière dont ChatGPT peut accepter et remixer vos propres images, et incorporer d’autres informations (du web et de ses données d’entraînement) : ainsi, l’une des images de démonstration d’OpenAI a été créée à partir du prompt “créer une infographie visuelle décrivant pourquoi la SF est si brumeuse” et ChatGPT a fait exactement cela (enfin, la meilleure des trois).
Dans mes propres tests, j’ai trouvé que ChatGPT est beaucoup mieux pour l’édition d’images, et assez compétent pour remixer des images dans différents styles. Il a encore des difficultés pour maintenir la cohérence entre les images – surtout avec des objets et des personnages complexes. C’est définitivement mieux qu’auparavant dans ce domaine, mais il y a encore tendance à exagérer les modifications, rendant l’IA moins utile pour ajuster les images ou créer une série d’images qui doivent correspondre.
Questions de droits d’auteur et de sécurité
Crédit : OpenAI
Comme pour toute annonce relative à l’IA générative, les questions de droits d’auteur, d’abus et d’exigences énergétiques refont surface. OpenAI a déclaré qu’il était impossible de construire ces outils sans s’entraîner sur des images protégées par des droits d’auteur, bien qu’il ait récemment commencé à signer des accords de contenu avec des fournisseurs tels que Shutterstock. Brad Lightcap, directeur des opérations d’OpenAI, a déclaré au Wall Street Journal que le générateur d’images GPT-4o rejettera les demandes de mimétisme du travail de tout artiste vivant.
En ce qui concerne la sécurité, OpenAI affirme que toutes les images générées sont accompagnées de métadonnées C2PA pour les identifier comme étant générées par l’IA – bien que ces métadonnées puissent être facilement supprimées avec un simple écran. Le générateur AI est également conçu pour rejeter toutes les tentatives de créer des “matériaux de maltraitance sexuelle infantile et des deepfakes sexuels”, selon OpenAI, ainsi que d’autres prompts qui violent ses politiques de contenu.
C’est clairement une avancée majeure pour les images AI : La technologie améliorée est parfois réellement époustouflante, et beaucoup des signes révélateurs de l’IA et des erreurs commises par la technologie sont en train de disparaître. Cela soulève toutefois de grandes questions sur l’avenir vers lequel nous nous dirigeons tous, un avenir où les faux sont si facilement créés, où le travail créatif est réalisé par des robots plutôt que par des humains – et où nous perdons collectivement notre capacité à esquisser une image, à rédiger une phrase ou à écrire une ligne de code. Et comment l’IA générative trouvera-t-elle plus de données d’entraînement ?