將AI代理網頁瀏覽Token成本降低100倍的隱藏工具
介紹Actionbook解決瀏覽器代理速度慢和Token成本高問題的革命性方法。基於手冊的自動化實現10倍速度提升和100分之1的成本。
說實話,我一開始是半信半疑的。
每次用代理執行網頁瀏覽自動化時,都要花很長時間,看著Token不斷消耗,我心想「原來就是這樣的嗎」。不只一次想過「我還是自己來吧」。
但最近接入了一個叫Actionbook的開源工具後,我的想法徹底改變了。
瀏覽器代理為什麼慢
目前大多數代理框架都會將整個頁面的DOM傳遞給LLM。即使填滿了上下文視窗,往往還是找不到需要點擊的按鈕。這就像讓代理閉著眼睛摸索一樣。
主要問題
- Airbnb搜尋一次DOM樹就消耗數萬Token
- 以GPT-5為準,解析單個頁面就佔用超過60%的上下文視窗
- 網站UI變化時選擇器就會失效,需要整體修改代理邏輯
- LLM面對複雜DOM時會產生幻覺(錯誤的動作推測)
Actionbook的革命性方法
這是一個基於Vercel的agent-browser建構的專案,但採用了不同的方法。
它將每個網站預先整理好的操作手冊和DOM選擇器壓縮成JSON格式傳入LLM上下文。之後代理無需探索就能直接執行操作。
我親自測試了他們展示的Airbnb搜尋場景,感知速度快了近10倍。
核心優勢
- 用壓縮的JSON代替完整HTML,Token使用量降至百分之一
- 網站變化時只需更新手冊,代理程式碼保持不變
- 相容任何LLM:GPT-5.3-Codex、Claude Opus 4.6、Gemini 3 Pro
- 手冊版本控制大幅減少自動化失效頻率
實際應用中Rust版本更好
Actionbook有TypeScript版本,但我推薦基於Rust的actionbook-rs。二進位檔案只有7.8MB,啟動時間僅5ms。Node.js版本超過150MB,啟動需要500ms以上。
而且它直接使用已安裝的Chrome或Brave,無需單獨安裝瀏覽器。
actionbook-rs的優勢
- 二進位7.8MB vs TypeScript版本150MB
- 啟動時間5ms vs 500~800ms
- 零執行時依賴,可直接部署到CI/CD流水線
- 內建隱身模式和Cookie管理
註冊為技能可提高一致性
不是用完就丟,而是將它註冊為Claude Code等編碼代理的技能,就能每次以相同品質執行網頁任務。
我進行了重複測試,發現技能註冊前後的任務成功率差異很大。註冊前5次中有2次失敗,註冊後幾乎接近零失敗。
實際效果
- 註冊為Claude Code技能後網頁自動化品質保持穩定(因為不是無頭模式,效果更明顯)
- 重複相同任務時,基於手冊的方法比探索式方法更穩定
結論
如何向代理展示網頁決定了自動化品質。盲目傳遞整個DOM的時代已經結束。
重要提示
不過這不是用於開發測試的。它是針對網頁瀏覽自動化最佳化的工具。也就是說非常適合搭配OpenClaw等工具使用。開發測試建議使用傳統的Playwright、Chrome Dev、agent-browser。
參考連結
訂閱電子報
獲取關於我最新專案、文章以及 AI 和 Web 開發實驗的更新。