目錄
1 分鐘閱讀

將AI代理網頁瀏覽Token成本降低100倍的隱藏工具

介紹Actionbook解決瀏覽器代理速度慢和Token成本高問題的革命性方法。基於手冊的自動化實現10倍速度提升和100分之1的成本。

說實話,我一開始是半信半疑的。

每次用代理執行網頁瀏覽自動化時,都要花很長時間,看著Token不斷消耗,我心想「原來就是這樣的嗎」。不只一次想過「我還是自己來吧」。

但最近接入了一個叫Actionbook的開源工具後,我的想法徹底改變了。

瀏覽器代理為什麼慢

目前大多數代理框架都會將整個頁面的DOM傳遞給LLM。即使填滿了上下文視窗,往往還是找不到需要點擊的按鈕。這就像讓代理閉著眼睛摸索一樣。

主要問題

  • Airbnb搜尋一次DOM樹就消耗數萬Token
  • 以GPT-5為準,解析單個頁面就佔用超過60%的上下文視窗
  • 網站UI變化時選擇器就會失效,需要整體修改代理邏輯
  • LLM面對複雜DOM時會產生幻覺(錯誤的動作推測)

Actionbook的革命性方法

這是一個基於Vercel的agent-browser建構的專案,但採用了不同的方法。

它將每個網站預先整理好的操作手冊和DOM選擇器壓縮成JSON格式傳入LLM上下文。之後代理無需探索就能直接執行操作。

我親自測試了他們展示的Airbnb搜尋場景,感知速度快了近10倍

核心優勢

  • 用壓縮的JSON代替完整HTML,Token使用量降至百分之一
  • 網站變化時只需更新手冊,代理程式碼保持不變
  • 相容任何LLM:GPT-5.3-Codex、Claude Opus 4.6、Gemini 3 Pro
  • 手冊版本控制大幅減少自動化失效頻率

實際應用中Rust版本更好

Actionbook有TypeScript版本,但我推薦基於Rust的actionbook-rs。二進位檔案只有7.8MB,啟動時間僅5ms。Node.js版本超過150MB,啟動需要500ms以上。

而且它直接使用已安裝的Chrome或Brave,無需單獨安裝瀏覽器。

actionbook-rs的優勢

  • 二進位7.8MB vs TypeScript版本150MB
  • 啟動時間5ms vs 500~800ms
  • 零執行時依賴,可直接部署到CI/CD流水線
  • 內建隱身模式和Cookie管理

註冊為技能可提高一致性

不是用完就丟,而是將它註冊為Claude Code等編碼代理的技能,就能每次以相同品質執行網頁任務。

我進行了重複測試,發現技能註冊前後的任務成功率差異很大。註冊前5次中有2次失敗,註冊後幾乎接近零失敗。

實際效果

  • 註冊為Claude Code技能後網頁自動化品質保持穩定(因為不是無頭模式,效果更明顯)
  • 重複相同任務時,基於手冊的方法比探索式方法更穩定

結論

如何向代理展示網頁決定了自動化品質。盲目傳遞整個DOM的時代已經結束。

重要提示

不過這不是用於開發測試的。它是針對網頁瀏覽自動化最佳化的工具。也就是說非常適合搭配OpenClaw等工具使用。開發測試建議使用傳統的Playwright、Chrome Dev、agent-browser

參考連結

訂閱電子報

獲取關於我最新專案、文章以及 AI 和 Web 開發實驗的更新。