Index
4 min de lecture

L'outil caché qui réduit les coûts de tokens de navigation web des agents IA par 100

Découvrez l'approche révolutionnaire d'Actionbook pour résoudre les problèmes de vitesse et de coût des agents navigateurs. L'automatisation basée sur des manuels offre 10x la vitesse et 1/100 du coût.

J’étais franchement sceptique au début.

Chaque fois que je lançais une automatisation de navigation web avec des agents, cela prenait une éternité, et en regardant les tokens fondre, je me demandais « C’est donc comme ça que ça marche ? » Plus d’une fois, je me suis dit « Peut-être devrais-je le faire moi-même. »

Mais récemment, après avoir intégré un outil open-source appelé Actionbook, ma perspective a complètement changé.

Pourquoi les agents navigateurs sont lents

La plupart des frameworks d’agents aujourd’hui alimentent le LLM avec l’intégralité du DOM de la page. Ils saturent la fenêtre de contexte et ne parviennent souvent toujours pas à trouver le bouton à cliquer. C’est comme avoir un agent qui tâtonne aveuglément dans le noir.

Problèmes clés

  • Une seule recherche Airbnb consomme des dizaines de milliers de tokens depuis l’arbre DOM
  • Pour GPT-5, l’analyse d’une seule page occupe plus de 60% de la fenêtre de contexte
  • Quand l’UI du site change, les sélecteurs se cassent et il faut réécrire toute la logique de l’agent
  • Les LLM hallucinent (font des hypothèses d’actions incorrectes) face à des structures DOM complexes

L’approche révolutionnaire d’Actionbook

Construit sur agent-browser de Vercel, ce projet adopte une approche différente.

Il compresse les manuels d’actions pré-organisés et les sélecteurs DOM pour chaque site web en JSON et les injecte dans le contexte du LLM. Ensuite, l’agent peut agir directement sans exploration.

J’ai personnellement testé le scénario de recherche Airbnb présenté dans leurs exemples, et la vitesse perçue était presque 10 fois plus rapide.

Avantages principaux

  • Utilisation de tokens réduite à 1/100 en utilisant du JSON compressé au lieu du HTML complet
  • Quand les sites changent, il suffit de mettre à jour le manuel tout en gardant le code de l’agent intact
  • Compatible avec n’importe quel LLM : GPT-5.3-Codex, Claude Opus 4.6, Gemini 3 Pro
  • Les manuels versionnés réduisent considérablement la fréquence des pannes d’automatisation

La version Rust est meilleure pour la production

Bien qu’Actionbook ait une version TypeScript, je recommande actionbook-rs basé sur Rust. Le binaire fait 7,8 Mo avec un temps de démarrage de 5 ms. La version Node.js dépasse 150 Mo et prend plus de 500 ms à démarrer.

De plus, il utilise votre installation Chrome ou Brave existante, donc aucune installation de navigateur séparée n’est nécessaire.

Avantages d’actionbook-rs

  • Binaire de 7,8 Mo vs version TypeScript de 150 Mo
  • Temps de démarrage de 5 ms vs 500~800 ms
  • Zéro dépendance d’exécution, prêt pour les pipelines CI/CD
  • Mode furtif et gestion des cookies intégrés

L’enregistrement comme compétence améliore la cohérence

Au lieu d’une utilisation ponctuelle, l’enregistrer comme compétence dans des agents de codage comme Claude Code vous permet d’automatiser systématiquement les tâches web au même niveau de qualité.

J’ai effectué des tests répétés et constaté une différence significative dans les taux de réussite des tâches avant et après l’enregistrement de la compétence. Avant l’enregistrement, 2 tâches sur 5 échouaient ; après, les échecs ont approché zéro.

Impact réel

  • L’enregistrement comme compétence Claude Code maintient une qualité d’automatisation web cohérente (encore plus efficace car ce n’est pas en mode headless)
  • Avec les tâches répétées, les approches basées sur des manuels s’avèrent plus stables que celles basées sur l’exploration

Conclusion

La façon dont vous montrez le web à votre agent détermine la qualité de l’automatisation. L’ère où l’on jetait aveuglément des DOM entiers est révolue.

Note importante

Ce n’est pas pour les tests de développement. C’est optimisé pour l’automatisation de navigation web. En d’autres termes, c’est excellent pour une utilisation avec des outils comme OpenClaw. Pour les tests de développement, je recommande de rester avec Playwright, Chrome Dev ou agent-browser.

Références

Rejoindre la newsletter

Recevez des mises à jour sur mes derniers projets, articles et expériences en IA et développement web.