Plus tôt cette semaine, xAI a lancé Grok 3, l’IA la plus avancée de l’entreprise, avec un modèle de raisonnement et une fonctionnalité DeepSearch. La société prétend qu’il s’agit de l’IA la plus intelligente au monde, et Elon lui-même affirme qu’elle “surpasse tout ce qui a été publié” jusqu’à présent. Mais est-ce vraiment la “IA maximally truth-seeking” comme le dit Musk ?
Eh bien, pour vous gâcher la surprise, non. Pas encore. Ce qui est dommage, car Grok est cher : au-delà d’un essai gratuit limité, il nécessite soit un abonnement X Premium+ à 40 $/mois, contre 22 $ grâce au nouveau modèle, soit un abonnement SuperGrok à 30 $/mois.
De mes tests ainsi que des expériences d’experts, j’ai du mal à croire que l’IA “basée” vaut ce coût. Il n’y a pas de percée de nouvelle génération ou de modèle de raisonnement révolutionnaire que nous n’ayons pas déjà vu ici. Grok 3 hallucine également périodiquement, comme n’importe quel autre modèle d’IA existant, mais cela ne veut pas dire qu’elle n’a pas progressé.
Dans les propres tests de référence de X, Grok 3 dépasse presque tous les modèles, sauf le modèle o3 à venir d’OpenAI. Mais du point de vue de l’utilisateur, une application d’IA va bien au-delà des benchmarks.
Un bon chatbot d’IA est un produit mature et bien équilibré. Ayant dépensé mon propre argent pour tester cela, je ne sens tout simplement pas que je reçois cela ici, surtout lorsque la concurrence propose des produits similaires, voire meilleurs, pour beaucoup moins cher.
Grok 3 a techniquement rattrapé son retard
Il est préférable de laisser de côté les affirmations extravagantes d’Elon lors de l’évaluation de Grok 3. Vu de façon objective, il est impressionnant que Grok 3 ait rattrapé son retard pour être à la pointe de la puissance de l’IA, et étonnamment rapidement (Grok 2 n’a jamais été dans la cour des grands).
Grok 3 a été entraîné en utilisant 200 000 GPU Nvidia H100 et utilise plus de 10 fois la puissance de calcul que Grok 2. Toute cette puissance signifie des gains. Grok 3 est maintenant assez rapide et très utilisable pour les tâches quotidiennes. Les réponses régulières sont rapides, bien que la fonction Think (qui donne des réponses légèrement plus détaillées) prenne régulièrement environ 2 minutes pour revenir avec une réponse, donc préparez-vous à attendre.
De plus, elle peut faire des recherches approfondies en utilisant des sources web et dispose également d’un modèle de raisonnement spécifique. Cela signifie qu’elle peut produire des rapports longs et décomposer les invites en processus étape par étape afin de pouvoir se corriger elle-même. Le modèle o3 d’OpenAI, qui doit être lancé prochainement, dépasse toujours Grok 3 dans les benchmarks, mais il s’agit d’une amélioration significative par rapport à son prédécesseur.
Mais bien que les graphiques indiquent que Grok 3 est censé surpasser ChatGPT, Gemini et Sonnet dans des tâches nécessitant beaucoup de calculs liées aux mathématiques, à la science et à la programmation, les premiers rapports d’experts ne favorisent pas vraiment la confiance.
Par exemple, l’utilisateur X, le PDG de l’IA et YouTuber Theo Browne a comparé les réponses à un défi de codage entre Grok 3, o3-mini et Claude 3.5 sonnet, et Grok 3 a échoué misérablement, n’arrivant pas à fonctionner sans bugs pendant plus de quelques secondes.
Andrej Karpathy, ancien directeur de l’IA chez Tesla, a de son côté déclaré que Grok 3 s’est bien comporté lors de ses tests, mais que ses compétences se situent quelque part entre DeepSeek R1 et le modèle o1-pro d’OpenAI. Assurément pas de classe leader, et rien que vous ne puissiez déjà faire avec des outils existants.
Mais un test, même quelques-uns, ne peut pas vraiment déterminer comment un modèle d’IA se comporte. J’ai eu un peu de chance moi-même, mais surtout pour des tâches plus légères. Cela peut être utile pour rechercher quel nouveau purificateur d’air acheter, par exemple, ou lorsque l’on apprend de manière décontractée sur un nouveau sujet. Mais ce n’est pas exactement quelque chose pour lequel je suis prêt à ouvrir mon portefeuille.
Grok n’est pas “basé”, c’est en fait assez ennuyeux
Avant le lancement de Grok 3, Musk avait fait grand bruit sur le fait qu’il était “basé”. Si vous ne savez pas ce que cela signifie (vous avez de la chance), c’est un terme d’argot pour, essentiellement, partager son opinion sans égard pour les autres. Par exemple, Musk a partagé une capture d’écran montrant une réponse provocante de Grok où il qualifiait la publication technologique The Information de “déchet”, entre autres insultes.
Mais quand j’ai posé la même question, il est revenu avec une réponse nuancée et équilibrée, sans critiquer The Information pour grand-chose. La seule critique qu’il avait était que le site “peut parfois sembler un peu de niche ou trop centré sur Silicon Valley” et “en termes de biais, il penche vers le pragmatisme plutôt que vers l’idéologie”. C’est une prise plutôt timide, si vous me demandez.

Crédit : Khamosh Pathak
J’ai obtenu des résultats similaires dans d’autres tests. Grok ne prendrait pas parti dans le procès entre Justin Baldoni et Blake Lively. Et quand j’ai posé une question politique comme “Pourquoi Kamala Harris a-t-elle perdu l’élection présidentielle américaine ?”, j’ai obtenu une réponse tout aussi modérée, citant des “frustrations économiques”. Les reportages d’Axios rejoignent également ce que j’ai découvert.

Crédit : Khamosh Pathak
Peut-être que Grok atténuer les excentricités d’Elon est une bonne chose, mais ce n’est certainement pas ce que son maître dit qu’il est. Au lieu de cela, il ressemble encore beaucoup à la concurrence.
Quelle est la profondeur de votre recherche ?

Crédit : Khamosh Pathak
En ce qui concerne DeepSearch, l’outil de génération de rapports de Grok fonctionne de manière assez similaire à la fonctionnalité de recherche approfondie récemment lancée et principalement gratuite de Perplexity. En tant que simple journaliste technologique, c’est quelque chose que j’ai pu tester moi-même. J’ai effectué deux requêtes, l’une pour un voyage que ma famille prévoit pour la fin de l’année, et l’autre pour un vélo hybride urbain.

Crédit : Khamosh Pathak
Dans les deux cas, Perplexity AI a légèrement mieux réussi que Grok dans la plupart des tâches. Avec la question de voyage, j’ai obtenu essentiellement le même itinéraire des deux produits, mais Perplexity AI a mieux réussi à le formater.

Crédit : Khamosh Pathak
Grok a néanmoins relevé le défi en recommandant d’autres options dans le sud de l’Inde, quelque chose que Perplexity n’a fourni que des questions de suivi. Donc, je dois lui donner ce crédit.

Crédit : Khamosh Pathak
En revanche, en ce qui concerne les recherches d’achats, Grok a mal géré la recommandation de produit principale. Le produit qu’il a suggéré n’est tout simplement pas disponible en Inde, où je vis, et les autres options ne correspondaient pas à ce que je recherchais.

Crédit : Khamosh Pathak
Perplexity AI, en revanche, m’a surpris avec son choix principal, quelque chose que je ne connaissais pas et qui coche la plupart de mes cases. Ses autres options étaient également intéressantes et n’incluaient rien qui ne soit pas disponible en Inde. Grok et Perplexity ont tous deux bien expliqué ce que je devrais rechercher lors de l’achat d’un vélo urbain, donc points égaux là-dessus, mais ce dernier était tout simplement beaucoup plus utilisable.

Crédit : Khamosh Pathak
Sur la base de mes tests, je pense que Perplexity AI a toujours un léger avantage sur Grok 3 en ce qui concerne la recherche approfondie qui est réellement utile pour la personne moyenne. Que ce soit pour planifier un voyage, effectuer des recherches d’achats, ou comprendre des nouvelles ou des concepts, Perplexity fait un travail plus nuancé. En termes de pure vitesse, Grok est plus rapide et n’hésite pas à fournir des liens dans le texte lui-même, mais dans Perplexity, cliquer sur le texte lié développe effectivement le sujet dans le rapport.
Perplexity a également plus d’options d’exportation. Vous pouvez télécharger votre rapport au format PDF, en Markdown, ou créer une page partageable (voici mon rapport pour la recherche de vélo urbain si cela vous intéresse). Dans Grok, tout ce que vous pouvez faire est de copier le texte.
Qu’est-ce que tout cela signifie ? Eh bien, bien que Grok soit certainement utilisable, il est un peu décevant de voir son offre payante ne pas être à la hauteur d’une alternative gratuite. C’est quelque chose que je pense rencontrer ici régulièrement.
Grok 3 ne vaut pas le prix d’entrée
En ce moment, nous sommes au milieu du cycle de battage médiatique de Grok 3. Grok 3 lui-même s’améliore chaque jour, mais en l’état actuel des choses, il n’est pas nécessaire de vous précipiter pour annuler vos abonnements ChatGPT Plus ou Perplexity Pro. À bien des égards, Grok est bon, juste pas aussi bon.
Si vous le souhaitez, vous pouvez essayer Grok 3 temporairement gratuitement, car X permet un accès gratuit limité tant que ses serveurs peuvent supporter la charge. Quand cette période se terminera-t-elle ? Qui sait. Selon le compte X de Musk, il ne sera gratuit que pour une “courte période“.
De plus, en dehors des performances du modèle, Grok 3 manque également de certaines fonctionnalités d’une application d’IA plus établie. Il n’y a pas de mode vocal, et tout ce à quoi vous avez accès en ce moment est le modèle Grok 3 complet. Le Grok 3 mini, plus rapide, doit encore être lancé, et il n’y a pas non plus d’API pour Grok 3.
Lorsque vous prenez en compte le prix pour un accès complet, Grok 3 n’a même moins de sens. 40 $ par mois pour le plan X Premium+ est le double de la norme du secteur de 20 $ pour Gemini Advanced, ChatGPT Plus et Perplexity Pro. Et une fois ce période d’essai gratuite terminée, le coûteux plan X Premium+ sera le seul moyen d’accéder à Grok 3 jusqu’à ce que l’abonnement SuperGrok à 30 $ soit disponible pour tout le monde (le plan SuperGrok ne vous donne accès qu’à Grok 3, mais pas à aucune des fonctionnalités premium de X).
Et en l’état actuel des choses, vous n’en avez vraiment pas pour votre argent. En fait, dans de nombreux cas, vous pouvez vous en sortir en utilisant un modèle gratuit comme DeepSeek R1 à la place (bien que, vous pourriez avoir une meilleure expérience en l’utilisant via une application tierce).