Après des mois de tests, OpenAI a lancé le mode “voix avancée” pour ChatGPT en septembre. Cette fonctionnalité vous permet d’avoir des conversations en temps réel avec ChatGPT : vous pouvez interrompre le bot et sa “parole” pour poser une autre question, et il comprend votre ton de voix, qu’il utilise pour informer ses réponses, ainsi que pour l’intonation qu’il emploie. (C’est très troublant quand il rit.)
Cependant, une fonctionnalité du mode voix avancée a manqué depuis son lancement. Lorsque OpenAI a d’abord annoncé cet avantage en mai, il a montré comment ChatGPT pourrait accéder à votre caméra et “voir” le monde autour de vous. En discutant avec le bot, vous pourriez pointer votre caméra vers quelque chose, poser une question, et ChatGPT répondrait du mieux qu’il pourrait. Sept mois plus tard, cette capacité est enfin là, et elle est terriblement impressionnante.
Pour y accéder, vous devez avoir un abonnement payant à ChatGPT — soit Plus (20 $ par mois), soit Pro (200 $ par mois). Les abonnés à ChatGPT Team sont également éligibles. La fonctionnalité peut ne pas être immédiatement disponible de votre côté, même si vous payez, car OpenAI la déploie progressivement.
Tester la fonctionnalité de vision du mode voix avancée de ChatGPT
Accéder à la caméra est assez simple une fois que cela est déployé sur votre compte. Vous lancez le mode voix avancée de la même manière que d’habitude, en utilisant l’icône d’onde sonore dans le coin inférieur droit du chat. De là, vous verrez une nouvelle icône de caméra, qui, bien sûr, lance le flux de caméra en direct. Cela n’interrompt pas la conversation : vous pouvez être en train de discuter avec ChatGPT, ouvrir la caméra, et continuer à discuter, cette fois avec le flux de la caméra comme partie de la conversation.
La première fois que j’ai utilisé cela, j’ai pointé la caméra vers une boîte de Nintendo Switch que j’avais à proximité, avec un câble d’iPhone et ma Magic Trackpad reposant dessus, et j’ai demandé : “Qu’est-ce que c’est ?” ChatGPT a répondu : “Cela ressemble à une boîte OLED de Nintendo Switch avec quelques câbles et un ordinateur portable dessus. Prévoyez-vous de le configurer ?” Deux sur trois corrects, puisqu’il a confondu mon trackpad avec un ordinateur portable, mais bon, assez proche. Ensuite, je l’ai pointé vers ma bouteille d’eau et lui ai demandé d’identifier ce que je soulignais : “Cela ressemble à une bouteille noire Hydro Flask. Elle est excellente pour garder les boissons froides ou chaudes ! L’emportez-vous souvent ?”
J’ai posé une question de suivi : “Savez-vous quel modèle de Hydro Flask c’est ?” ChatGPT : “Je ne peux pas être certain du modèle exact, mais cela ressemble à l’une de leurs bouteilles à large ouverture, probablement autour de 32 onces. Elle est définitivement conçue pour garder vos boissons à la bonne température pendant des heures.” Ça… est essentiellement correct. Je ne suis pas très à l’aise avec le fait que ChatGPT devine la taille correctement, non plus.
J’ai ensuite passé à mon clavier, que ChatGPT a identifié avec précision comme un Apple Magic Keyboard. J’ai demandé quels touches il pouvait voir, et il en a nommé quelques-unes, mais pas toutes, des touches que j’avais dans le cadre. Donc, j’ai demandé combien de touches il pouvait voir, et il a dit “environ 30,” alors qu’il y en avait 26. Donc, encore une fois, proche.
Il a pu identifier le port MagSafe sur mon MacBook, ainsi que les deux ports USB et la prise casque à sa droite. Il a reconnu la grille d’aération dans mon plafond, et le type précis de bottes que j’avais près de ma porte d’entrée. Dans l’ensemble, il a essentiellement reconnu tout ce que j’ai testé — à l’exception du trackpad.
Que pensez-vous jusqu’à présent ?
La vue du mode voix avancée est rapide
Cependant, au-delà de la reconnaissance, je pense que ce qui m’a surpris le plus était la rapidité de ces réponses. Vous demandez à ChatGPT d’identifier quelque chose, et il le fait, parfois plus rapidement que si vous demandiez à une vraie personne de le faire. Parfois, le bot retient un mot pendant un moment (par exemple, “Je pense que c’est un…”) ce qui est probablement un trick pour permettre à ChatGPT de traiter le reste de ce qu’il veut dire. Je l’ai aussi vu moins sûr de lui avec sa première réponse : je l’ai pointé vers ma Magic Mouse, et sa première supposition était une souris d’ordinateur. Mais lorsque j’ai demandé quelle marque c’était, il a non seulement spécifié Apple, mais a dit qu’il s’agissait d’une Magic Mouse d’Apple, connue pour son “design élégant” et sa “surface tactile.”
Toutefois, toutes choses considérées, ces réponses sont souvent quasi-instantanées, ce qui témoigne de la puissance des modèles d’OpenAI de nos jours. Je reste en grande partie un sceptique de l’IA, mais c’était le premier développement en un certain temps qui m’a impressionné—et je suis partagé sur ce que je ressens à ce sujet.
D’un côté, je peux voir cette technologie utilisée pour le bien. Imaginez à quel point quelque chose comme cela pourrait être utile pour les utilisateurs qui sont aveugles ou ont une déficience visuelle, surtout dans un appareil pratique comme des lunettes intelligentes. Quelqu’un pourrait demander à son assistant IA dans quelle direction il fait face, pour lire le menu dans un restaurant, ou si c’est sûr de traverser la rue. Une technologie comme celle-ci pourrait améliorer la recherche et faciliter l’apprentissage de nouvelles choses sur le monde en pointant notre caméra de smartphone vers un sujet.
En revanche, mon esprit se tourne vers le négatif, d’autant plus que l’IA est encore sujette à des hallucinations. À mesure que de plus en plus de personnes utilisent cette technologie, elles feront inévitablement l’expérience des erreurs que l’IA peut faire, et si elles comptent sur le bot pour les aider avec des tâches—surtout quelque chose qui implique leur sécurité—les hallucinations peuvent être dangereuses. Je n’ai pas rencontré d’erreurs majeures ; juste la confusion avec le trackpad. Anderson Cooper a constaté que le bot a fait une erreur sur un problème de géométrie (encore une fois, pas un gros problème). Mais c’est un bon rappel qu’à mesure que cette technologie s’améliore rapidement, ses défauts inhérents augmentent les enjeux de l’échec.
Peut-être est-ce pourquoi chaque session de caméra en direct vous avertit de ne pas utiliser la fonctionnalité pour quoi que ce soit impliquant la sécurité.