Le modèle d’IA générative le plus récent d’OpenAI, o1, est arrivé. La société a annoncé o1-preview et o1-mini jeudi, marquant une rupture avec le schéma de nommage GPT. Il y a de bonnes raisons à cela : OpenAI affirme qu’à la différence de ses autres modèles, o1 est conçu pour passer plus de temps à “réfléchir” aux problèmes avant de retourner des résultats – et il vous montrera également comment il a résolu votre problème.
Dans l’annonce d’OpenAI, la société déclare que ce nouveau “processus de réflexion” aide ses modèles à essayer de nouvelles tactiques et à réfléchir à leurs erreurs. Selon l’entreprise, o1 fonctionne “de manière similaire à des doctorants” en biologie, chimie et physique. Alors que GPT-4o a résolu 13% des problèmes aux Olympiades Internationales de Mathématiques, o1 aurait résolu 83%. La société a également souligné à quel point les modèles sont plus efficaces pour le codage et la programmation. Ce “processus de réflexion” signifie qu’o1 met plus de temps à répondre que les modèles précédents.
Comme l’explique Jerry Tworek, responsable de la recherche chez OpenAI, à The Verge, o1 est entraîné par apprentissage par renforcement. Au lieu de rechercher des modèles à partir d’un ensemble d’entraînement, o1 apprend par le biais de “récompenses et sanctions”. OpenAI garde la méthodologie exacte vague, mais souligne que ce nouveau modèle de réflexion fait moins d’hallucinations que les modèles précédents, bien qu’il hallucine encore.
Il existe deux versions d’o1 : o1-preview, qui est la version complète du modèle, et o1-mini, une version allégée entraînée sur un cadre similaire. La société expédierait ces modèles plus tôt dans le développement et affirme que c’est la raison pour laquelle ils n’incluent pas les fonctionnalités standards de GPT, telles que l’accès au web et le téléchargement de fichiers et d’images.
o1-preview pense-t-il qu’un hot-dog est un sandwich ?
J’admets que je ne suis pas programmeur et que je n’ai pas beaucoup de problèmes mathématiques avancés à résoudre au quotidien. Cela rend difficile le test approprié des derniers modèles d’OpenAI pour leurs forces et cas d’utilisation proposés. Ce que je peux apprécier, en tant que partie non technique, c’est le processus de réflexion d’o1-preview : lorsque vous interrogez le nouveau modèle, il affiche maintenant un message de retour pendant qu’il travaille sur la question. (par exemple, “Réfléchissant…”) Une fois terminé, il affiche les résultats comme on peut s’y attendre, mais avec un menu déroulant au-dessus.
J’ai utilisé l’invite suggérée par OpenAI “Un hot-dog est-il un sandwich ?”, et sa réponse a été précédée d’un message qui dit “Réfléchi pendant 4 secondes”. (Sa réponse, au fait, a donné trois paragraphes de “cela dépend”).
Quoi qu’il en soit, lorsque j’ai cliqué sur le menu déroulant “Réfléchi pendant 4 secondes”, j’ai pu voir le raisonnement du modèle : pour cette invite, il a divisé son processus en deux parties. La première, “Analyser la question”, se lit : “D’accord, voyons. La question de savoir si un hot-dog est un sandwich implique de comprendre la sémantique et de tenir compte des politiques d’OpenAI, en mettant l’accent sur l’exactitude et en évitant les opinions personnelles ou le contenu interdit.” La deuxième, “Examiner les définitions”, se lit : “Je réfléchis à la question de savoir si un hot-dog est un sandwich en regardant les définitions et les points de vue culturels. Cela montre qu’il y a place à débat.” Je suppose que c’est toute la réflexion dont il avait besoin pour répondre à la question.
Qu’en est-il d’un taco ? Est-ce un sandwich ?
J’ai également demandé à o1 de se prononcer sur une autre question controversée liée à la nourriture : un taco est-il un sandwich ? Le modèle a beaucoup à dire.
Après avoir réfléchi pendant cinq secondes entières, l’IA a rendu une réponse de 364 mots. Son processus de pensée a inclus la concentration sur les définitions, la clarification des définitions (“Je définis un taco par ses principaux ingrédients : tortilla, garniture et sauce. Cela aide à comprendre s’il correspond à la définition d’un sandwich.”), et l’examen des perspectives (“J’examine la classification des tacos et des sandwiches, soulignant leurs distinctions culinaires : les tacos utilisent des tortillas, les sandwiches utilisent du pain ; les tacos reposent sur des racines culturelles de la cuisine mexicaine, tandis que les sandwiches tirent leur origine de l’influence européenne.”)
Admettant qu’il s’agit “d’un sujet de débat”, il a raisonné que la réponse dépend des définitions issues des traditions culinaires, des contextes culturels et même des interprétations juridiques, pesant les “différences clés” (en particulier, il n’y a pas de pain dans un taco, et alors qu’un sandwich implique de placer des ingrédients entre des morceaux de pain, un taco implique de placer des ingrédients sur une tortilla).
Tout bien considéré, o1 a conclu qu’un taco n’est pas un sandwich, selon “la plupart des experts culinaires et des amateurs de gastronomie” – citant même une affaire judiciaire dans laquelle un juge a statué qu’un burrito n’est pas un sandwich. (Voici le contexte, si cela vous intéresse.)
Mais un taco est-il un hot-dog ?
Comme suivi, j’ai demandé à o1 s’il classerait un taco comme un hot-dog. Après neuf secondes, il a donné une réponse définitive : “Bien que les tacos et les hot-dogs impliquent tous deux de placer des garnitures dans une forme de pain ou de base semblable au pain, ils ne sont pas les mêmes et appartiennent à différentes catégories culinaires.” Voilà, internet. Vous pouvez arrêter de débattre sur ce point.
o1 peut gérer des tâches plus complexes, non liées aux sandwiches aussi
Essayons autre chose. J’ai choisi une deuxième invite suggérée par OpenAI : “Générez-moi un puzzle nonogramme 6×6 à résoudre, où la grille résolue ressemble à la lettre Q.”
Comme vous pourriez vous y attendre d’une demande plus exigeante, o1-preview a mis plus de temps à traiter cette tâche – 84 secondes, pour être exact. Il a produit un tel puzzle, avec des instructions sur la manière de le résoudre. En cliquant sur le menu déroulant, il a eu 36 processus de pensée individuels pendant qu’il travaillait sur l’invite. Dans “Formulation du puzzle”, le bot a dit “Je réfléchis au processus de création d’un nonogramme 6×6 où la solution révèle la lettre Q. Nous devons concevoir la grille, dériver les indices et présenter le puzzle à résoudre.” Il a ensuite tenté de comprendre comment incorporer la “queue” du Q dans l’image. Il décide qu’il doit ajuster le bas de sa mise en page afin d’ajouter la queue, avant de continuer à essayer de configurer le puzzle.
C’est définitivement intéressant de parcourir chaque étape que prend o1-preview. OpenAI a apparemment entraîné le modèle à utiliser des mots et des phrases comme “D’accord”, “hm”, et “Je suis curieux de” lors de la “réflexion”, peut-être dans le but de rendre le modèle plus humain. (Est-ce vraiment ce que nous voulons de l’IA ?). Si la demande est trop simple, toutefois, et ne prend que quelques secondes au modèle pour être résolue, il ne montrera pas son travail.
Il est encore très tôt, donc il est difficile de savoir si o1 représente un bond significatif par rapport aux modèles d’IA précédents. Nous devrons voir si ce nouveau “processus de réflexion” améliore véritablement les habitudes habituelles qui vous informent si un texte a été généré par l’IA.
Comment essayer les modèles o1 d’OpenAI
Ces nouveaux modèles sont disponibles dès maintenant, mais vous devez être un utilisateur éligible pour les essayer. Cela signifie avoir un abonnement ChatGPT Plus ou ChatGPT Team. Si vous êtes utilisateur de ChatGPT Enterprise ou ChatGPT Ed, les modèles devraient apparaître la semaine prochaine. Les utilisateurs de ChatGPT gratuit auront accès à o1-mini à un moment donné dans le futur.
Si vous avez l’un de ces abonnements, vous pourrez sélectionner o1-preview et o1-mini dans le menu déroulant des modèles lors du démarrage d’un chat. OpenAI indique qu’au lancement, les limites de messages hebdomadaires sont de 30 messages pour o1-preview et de 50 pour o1-mini. Si vous prévoyez de tester ces modèles fréquemment, gardez cela à l’esprit avant de gaspiller tous vos messages le premier jour.