將AI代理網頁瀏覽Token成本降低100倍嘅隱藏工具
介紹Actionbook點樣解決瀏覽器代理速度慢同Token成本高嘅問題。基於手冊嘅自動化實現10倍速度提升同100分之1嘅成本。
講真,我一開始係半信半疑嘅。
每次用代理執行網頁瀏覽自動化嗰陣,都要花好長時間,睇住Token不斷消耗,我心諗「原來係咁嘅咩」。唔只一次諗過「我自己做仲快啲」。
但最近接入咗一個叫Actionbook嘅開源工具之後,我嘅諗法徹底改變咗。
瀏覽器代理點解咁慢
而家大部分代理框架都會將成個頁面嘅DOM傳俾LLM。就算填滿咗上下文視窗,往往都搵唔到要撳嘅按鈕。呢個就好似叫代理閂住眼摸嘢咁。
主要問題
- Airbnb搜尋一次DOM樹就消耗幾萬Token
- 以GPT-5為準,解析單個頁面就佔用超過60%嘅上下文視窗
- 網站UI變咗選擇器就會失效,需要整體修改代理邏輯
- LLM面對複雜DOM時會產生幻覺(錯誤嘅動作推測)
Actionbook嘅革命性方法
呢個係基於Vercel嘅agent-browser建構嘅專案,但用咗唔同嘅方法。
佢將每個網站預先整理好嘅操作手冊同DOM選擇器壓縮成JSON格式傳入LLM上下文。之後代理唔使探索就可以直接執行操作。
我親自測試咗佢哋展示嘅Airbnb搜尋場景,感知速度快咗近10倍。
核心優勢
- 用壓縮嘅JSON代替完整HTML,Token使用量降至百分之一
- 網站變化時只需更新手冊,代理程式碼保持不變
- 兼容任何LLM:GPT-5.3-Codex、Claude Opus 4.6、Gemini 3 Pro
- 手冊版本控制大幅減少自動化失效頻率
實際應用中Rust版本更好
Actionbook有TypeScript版本,但我推薦基於Rust嘅actionbook-rs。二進位檔案只有7.8MB,啟動時間得5ms。Node.js版本超過150MB,啟動需要500ms以上。
而且佢直接使用已安裝嘅Chrome或Brave,唔使單獨安裝瀏覽器。
actionbook-rs嘅優勢
- 二進位7.8MB vs TypeScript版本150MB
- 啟動時間5ms vs 500~800ms
- 零執行時依賴,可直接部署到CI/CD流水線
- 內建隱身模式同Cookie管理
註冊為技能可提高一致性
唔係用完就掉,而係將佢註冊為Claude Code等編碼代理嘅技能,就可以每次以相同質量執行網頁任務。
我進行咗重複測試,發現技能註冊前後嘅任務成功率差異好大。註冊前5次中有2次失敗,註冊後幾乎接近零失敗。
實際效果
- 註冊為Claude Code技能後網頁自動化質量保持穩定(因為唔係無頭模式,效果更明顯)
- 重複相同任務時,基於手冊嘅方法比探索式方法更穩定
結論
點樣向代理展示網頁決定咗自動化質量。盲目傳遞整個DOM嘅時代已經結束。
重要提示
不過呢個唔係用於開發測試嘅。佢係針對網頁瀏覽自動化優化嘅工具。即係話非常適合配合OpenClaw等工具使用。開發測試建議使用傳統嘅Playwright、Chrome Dev、agent-browser。
參考連結
訂閱通訊
獲取關於我最新項目、文章同埋 AI 和 Web 開發實驗嘅更新。