Pour l’instant, cela ne concerne que les tests bêta et n’est disponible que pour les développeurs ayant accès à l’API Claude, mais à l’avenir, nous pourrions tous avoir l’IA pour remplir des formulaires, déplacer des fichiers, rechercher des informations sur le web, et accomplir toutes les autres tâches que nous avons auparavant réalisées avec nos doigts et nos pouces.
Tout d’abord, les modèles Claude mis à jour : Anthropic a maintenant déployé Claude 3.5 Sonnet, qu’il décrit comme offrant “des améliorations généralisées” et des mises à jour particulièrement significatives en termes de capacités de codage, avec des performances nettement améliorées lors des tests de référence standard (y compris SWE-bench, basé sur GitHub).
Ensuite, il y a Claude 3.5 Haiku, une nouvelle version du modèle d’IA plus rapide, plus léger, moins coûteux et moins puissant proposé par Anthropic. Encore une fois, les performances globales ont été améliorées, affirme la société, et comme avec Sonnet, il y a des gains particuliers en matière de capacités de codage.
Cependant, ce sont les capacités d’utilisation de l’ordinateur qui vont retenir le plus l’attention, activées dans le cadre de la mise à jour de Claude 3.5 Sonnet, et qui promettent de porter l’automatisation du bureau à un niveau supérieur. Pour l’instant, cependant, Anthropic souligne qu’il s’agit d’un produit très expérimental.
Utilisation de l’ordinateur dans Claude 3.5 Sonnet
Dans la vidéo démonstrative d’Anthropic ci-dessous, vous pouvez voir l’IA Claude chargée de remplir un formulaire. Les différentes informations nécessaires pour ce formulaire doivent être récupérées dans différentes bases de données et onglets de navigateur, mais tout ce que l’utilisateur a à faire est de demander à remplir le formulaire et d’indiquer où se trouvent les informations requises.
En travaillant sur les tâches, Claude prend des captures d’écran et les étudie pour comprendre ce qu’il observe, ce qui est similaire aux capacités de reconnaissance et d’analyse d’images pour lesquelles l’IA est déjà bien connue. Il détermine ensuite ce qu’il doit faire ensuite en fonction de ce qui est à l’écran et des instructions qu’il a reçues.
Dans ce cas, l’IA est assez intelligente pour réaliser qu’elle doit passer à un autre onglet de navigateur et effectuer une recherche pour trouver le nom d’une entreprise afin de récupérer certaines des informations qu’elle cherche. Le mouvement du curseur, les clics et la saisie sont gérés tout au long du processus par Claude. Le bot est capable d’identifier les bonnes données et de les copier dans les bons champs du formulaire.
Que pensez-vous jusqu’à présent ?
À la fin, Claude est assez intelligent pour repérer et sélectionner le bouton de soumission du formulaire à l’écran, ce qui termine la tâche, tout cela pendant que l’utilisateur observe. Dès le départ, il semble que le modèle d’IA soit capable de comprendre ce qui est à l’écran et de déterminer comment manipuler cela pour accomplir des tâches.
Cependant, Anthropic note que des tâches de base comme le défilement, le glissement et le zoom “présentent encore des défis” pour Claude, et les testeurs bêta sont encouragés à l’essayer dans des scénarios “à faible risque” pour le moment. Dans le benchmark OSWorld, qui mesure la capacité de l’IA à effectuer des tâches informatiques, Claude 3.5 Sonnet obtient apparemment un score de 14,9 % (les humains obtiennent généralement un score d’environ 70-75 %).

Crédit : Anthropic
Les développeurs derrière les nouvelles capacités n’ont pas hésité à signaler certains des erreurs qui peuvent survenir : lors d’un test, Claude a annulé un enregistrement d’écran sans raison apparente. Dans un autre, le bot a soudainement et aléatoirement changé d’une tâche de codage à la navigation en ligne pour chercher des photos du parc national de Yellowstone.
Anthropic note également que chaque avancée dans l’IA peut apporter de nouvelles préoccupations en matière de sécurité. Selon un audit de ses équipes internes de confiance et de sécurité, les capacités d’utilisation de l’ordinateur telles qu’elles se présentent à l’heure actuelle ne présentent pas de risque accru pour la sécurité des systèmes, bien que cela soit continuellement réévalué. De plus, aucune donnée soumise par les utilisateurs (y compris les captures d’écran) ne sera utilisée pour former les modèles d’IA Claude.