目录
1 分钟阅读

将AI代理网页浏览Token成本降低100倍的隐藏工具

介绍Actionbook解决浏览器代理速度慢和Token成本高问题的革命性方法。基于手册的自动化实现10倍速度提升和100分之1的成本。

说实话,我一开始是半信半疑的。

每次用代理运行网页浏览自动化时,都要花很长时间,看着Token不断消耗,我心想”原来就是这样的吗”。不止一次想过”我还是自己来吧”。

但最近接入了一个叫Actionbook的开源工具后,我的想法彻底改变了。

浏览器代理为什么慢

目前大多数代理框架都会将整个页面的DOM传递给LLM。即使填满了上下文窗口,往往还是找不到需要点击的按钮。这就像让代理闭着眼睛摸索一样。

主要问题

  • Airbnb搜索一次DOM树就消耗数万Token
  • 以GPT-5为准,解析单个页面就占用超过60%的上下文窗口
  • 网站UI变化时选择器就会失效,需要整体修改代理逻辑
  • LLM面对复杂DOM时会产生幻觉(错误的动作推测)

Actionbook的革命性方法

这是一个基于Vercel的agent-browser构建的项目,但采用了不同的方法。

它将每个网站预先整理好的操作手册和DOM选择器压缩成JSON格式传入LLM上下文。之后代理无需探索就能直接执行操作。

我亲自测试了他们展示的Airbnb搜索场景,感知速度快了近10倍

核心优势

  • 用压缩的JSON代替完整HTML,Token使用量降至百分之一
  • 网站变化时只需更新手册,代理代码保持不变
  • 兼容任何LLM:GPT-5.3-Codex、Claude Opus 4.6、Gemini 3 Pro
  • 手册版本控制大幅减少自动化失效频率

实际应用中Rust版本更好

Actionbook有TypeScript版本,但我推荐基于Rust的actionbook-rs。二进制文件只有7.8MB,启动时间仅5ms。Node.js版本超过150MB,启动需要500ms以上。

而且它直接使用已安装的Chrome或Brave,无需单独安装浏览器。

actionbook-rs的优势

  • 二进制7.8MB vs TypeScript版本150MB
  • 启动时间5ms vs 500~800ms
  • 零运行时依赖,可直接部署到CI/CD流水线
  • 内置隐身模式和Cookie管理

注册为技能可提高一致性

不是用完就丢,而是将它注册为Claude Code等编码代理的技能,就能每次以相同质量执行网页任务。

我进行了重复测试,发现技能注册前后的任务成功率差异很大。注册前5次中有2次失败,注册后几乎接近零失败。

实际效果

  • 注册为Claude Code技能后网页自动化质量保持稳定(因为不是无头模式,效果更明显)
  • 重复相同任务时,基于手册的方法比探索式方法更稳定

结论

如何向代理展示网页决定了自动化质量。盲目传递整个DOM的时代已经结束。

重要提示

不过这不是用于开发测试的。它是针对网页浏览自动化优化的工具。也就是说非常适合配合OpenClaw等工具使用。开发测试建议使用传统的Playwright、Chrome Dev、agent-browser

参考链接

订阅通讯

获取关于我最新项目、文章以及 AI 和 Web 开发实验的更新。