将AI代理网页浏览Token成本降低100倍的隐藏工具
介绍Actionbook解决浏览器代理速度慢和Token成本高问题的革命性方法。基于手册的自动化实现10倍速度提升和100分之1的成本。
说实话,我一开始是半信半疑的。
每次用代理运行网页浏览自动化时,都要花很长时间,看着Token不断消耗,我心想”原来就是这样的吗”。不止一次想过”我还是自己来吧”。
但最近接入了一个叫Actionbook的开源工具后,我的想法彻底改变了。
浏览器代理为什么慢
目前大多数代理框架都会将整个页面的DOM传递给LLM。即使填满了上下文窗口,往往还是找不到需要点击的按钮。这就像让代理闭着眼睛摸索一样。
主要问题
- Airbnb搜索一次DOM树就消耗数万Token
- 以GPT-5为准,解析单个页面就占用超过60%的上下文窗口
- 网站UI变化时选择器就会失效,需要整体修改代理逻辑
- LLM面对复杂DOM时会产生幻觉(错误的动作推测)
Actionbook的革命性方法
这是一个基于Vercel的agent-browser构建的项目,但采用了不同的方法。
它将每个网站预先整理好的操作手册和DOM选择器压缩成JSON格式传入LLM上下文。之后代理无需探索就能直接执行操作。
我亲自测试了他们展示的Airbnb搜索场景,感知速度快了近10倍。
核心优势
- 用压缩的JSON代替完整HTML,Token使用量降至百分之一
- 网站变化时只需更新手册,代理代码保持不变
- 兼容任何LLM:GPT-5.3-Codex、Claude Opus 4.6、Gemini 3 Pro
- 手册版本控制大幅减少自动化失效频率
实际应用中Rust版本更好
Actionbook有TypeScript版本,但我推荐基于Rust的actionbook-rs。二进制文件只有7.8MB,启动时间仅5ms。Node.js版本超过150MB,启动需要500ms以上。
而且它直接使用已安装的Chrome或Brave,无需单独安装浏览器。
actionbook-rs的优势
- 二进制7.8MB vs TypeScript版本150MB
- 启动时间5ms vs 500~800ms
- 零运行时依赖,可直接部署到CI/CD流水线
- 内置隐身模式和Cookie管理
注册为技能可提高一致性
不是用完就丢,而是将它注册为Claude Code等编码代理的技能,就能每次以相同质量执行网页任务。
我进行了重复测试,发现技能注册前后的任务成功率差异很大。注册前5次中有2次失败,注册后几乎接近零失败。
实际效果
- 注册为Claude Code技能后网页自动化质量保持稳定(因为不是无头模式,效果更明显)
- 重复相同任务时,基于手册的方法比探索式方法更稳定
结论
如何向代理展示网页决定了自动化质量。盲目传递整个DOM的时代已经结束。
重要提示
不过这不是用于开发测试的。它是针对网页浏览自动化优化的工具。也就是说非常适合配合OpenClaw等工具使用。开发测试建议使用传统的Playwright、Chrome Dev、agent-browser。
参考链接
订阅通讯
获取关于我最新项目、文章以及 AI 和 Web 开发实验的更新。