目錄
1 分鐘閱讀

將AI代理網頁瀏覽Token成本降低100倍嘅隱藏工具

介紹Actionbook點樣解決瀏覽器代理速度慢同Token成本高嘅問題。基於手冊嘅自動化實現10倍速度提升同100分之1嘅成本。

講真,我一開始係半信半疑嘅。

每次用代理執行網頁瀏覽自動化嗰陣,都要花好長時間,睇住Token不斷消耗,我心諗「原來係咁嘅咩」。唔只一次諗過「我自己做仲快啲」。

但最近接入咗一個叫Actionbook嘅開源工具之後,我嘅諗法徹底改變咗。

瀏覽器代理點解咁慢

而家大部分代理框架都會將成個頁面嘅DOM傳俾LLM。就算填滿咗上下文視窗,往往都搵唔到要撳嘅按鈕。呢個就好似叫代理閂住眼摸嘢咁。

主要問題

  • Airbnb搜尋一次DOM樹就消耗幾萬Token
  • 以GPT-5為準,解析單個頁面就佔用超過60%嘅上下文視窗
  • 網站UI變咗選擇器就會失效,需要整體修改代理邏輯
  • LLM面對複雜DOM時會產生幻覺(錯誤嘅動作推測)

Actionbook嘅革命性方法

呢個係基於Vercel嘅agent-browser建構嘅專案,但用咗唔同嘅方法。

佢將每個網站預先整理好嘅操作手冊同DOM選擇器壓縮成JSON格式傳入LLM上下文。之後代理唔使探索就可以直接執行操作。

我親自測試咗佢哋展示嘅Airbnb搜尋場景,感知速度快咗近10倍

核心優勢

  • 用壓縮嘅JSON代替完整HTML,Token使用量降至百分之一
  • 網站變化時只需更新手冊,代理程式碼保持不變
  • 兼容任何LLM:GPT-5.3-Codex、Claude Opus 4.6、Gemini 3 Pro
  • 手冊版本控制大幅減少自動化失效頻率

實際應用中Rust版本更好

Actionbook有TypeScript版本,但我推薦基於Rust嘅actionbook-rs。二進位檔案只有7.8MB,啟動時間得5ms。Node.js版本超過150MB,啟動需要500ms以上。

而且佢直接使用已安裝嘅Chrome或Brave,唔使單獨安裝瀏覽器。

actionbook-rs嘅優勢

  • 二進位7.8MB vs TypeScript版本150MB
  • 啟動時間5ms vs 500~800ms
  • 零執行時依賴,可直接部署到CI/CD流水線
  • 內建隱身模式同Cookie管理

註冊為技能可提高一致性

唔係用完就掉,而係將佢註冊為Claude Code等編碼代理嘅技能,就可以每次以相同質量執行網頁任務。

我進行咗重複測試,發現技能註冊前後嘅任務成功率差異好大。註冊前5次中有2次失敗,註冊後幾乎接近零失敗。

實際效果

  • 註冊為Claude Code技能後網頁自動化質量保持穩定(因為唔係無頭模式,效果更明顯)
  • 重複相同任務時,基於手冊嘅方法比探索式方法更穩定

結論

點樣向代理展示網頁決定咗自動化質量。盲目傳遞整個DOM嘅時代已經結束。

重要提示

不過呢個唔係用於開發測試嘅。佢係針對網頁瀏覽自動化優化嘅工具。即係話非常適合配合OpenClaw等工具使用。開發測試建議使用傳統嘅Playwright、Chrome Dev、agent-browser

參考連結

訂閱通訊

獲取關於我最新項目、文章同埋 AI 和 Web 開發實驗嘅更新。