一覧へ
1 分で読めます

AIエージェントのWeb検索トークンコストを100分の1にする隠れたツール

ブラウザエージェントの速度とトークンコストの問題を解決するActionbookの革新的なアプローチを紹介。マニュアルベースの自動化で速度10倍、コスト100分の1を実現。

正直、半信半疑でした。

エージェントでWebブラウジング自動化を実行するたびに時間がかかり、トークンが溶けていくのを見て「こういうものなのか」と思っていました。自分でやった方が早いのではと考えたことも一度や二度ではありません。

しかし最近、Actionbookというオープンソースツールを統合してから、考えが完全に変わりました。

ブラウザエージェントが遅い理由

現在のほとんどのエージェントフレームワークは、ページ全体のDOMをLLMに渡します。コンテキストウィンドウを埋め尽くしても、肝心のクリックすべきボタンが見つからないことが多いのです。エージェントが目を閉じて手探りしているようなものです。

主な問題点

  • Airbnb検索一回でDOMツリーが数万トークンを消費
  • GPT-5基準で単一ページの解析がコンテキストウィンドウの60%以上を占有
  • サイトのUIが変わるとセレクタが壊れてエージェントロジックを全面的に修正が必要
  • LLMが複雑なDOM構造の前でハルシネーション(誤った動作推測)を起こす

Actionbookの革新的なアプローチ

VercelのAgent-browserをベースに作られたプロジェクトですが、アプローチが異なります。

Webサイトごとに事前整理されたアクションマニュアルとDOMセレクタをJSONに圧縮してLLMコンテキストに渡します。その後、エージェントは探索する必要なく直接動作するのです。

実際に代表的な例として挙げられているAirbnb検索シナリオを試してみましたが、体感速度が10倍近く速くなりました。

コアメリット

  • HTML全体の代わりに圧縮JSONでトークン使用量を100分の1レベルに削減
  • サイトが変更されてもマニュアルだけ更新し、エージェントコードはそのまま維持
  • GPT-5.3-Codex、Claude Opus 4.6、Gemini 3 Pro、どんなLLMでも互換性あり
  • マニュアルのバージョン管理により自動化の破損頻度が大幅に減少

実務ではRustバージョンがベター

ActionbookにはTypeScriptバージョンもありますが、Rustベースのactionbook-rsをお勧めします。バイナリサイズが7.8MBで起動時間が5msレベルです。Node.jsベースは150MBを超え、起動に500ms以上かかります。

また、既にインストールされているChromeやBraveをそのまま使用するため、別途ブラウザのインストールも不要です。

actionbook-rsの利点

  • バイナリ7.8MB vs TypeScriptバージョン150MB
  • 起動時間5ms vs 500~800ms
  • ランタイム依存関係0でCI/CDパイプラインに直接投入可能
  • ステルスモードとクッキー管理が標準搭載

スキルファイルとして登録すると一貫性が向上

一度使って終わりではなく、Claude Codeのようなコーディングエージェントにスキルとして登録しておけば、毎回同じ品質でWeb作業を実行できます。

繰り返しテストを行いましたが、スキル登録前後でタスク成功率の差がかなり大きかったです。登録前は5回中2回失敗していたものが、ほぼゼロに近づきました。

実際の効果

  • Claude Codeスキルとして登録すればWeb自動化品質が一定に維持される(ヘッドレスではないためより効果的)
  • 同じタスクを繰り返すほど、マニュアルベースが探索ベースより安定

結論

エージェントにWebを見せる方法が、自動化品質を決定します。やみくもにDOM全体を投げる時代は終わりました。

重要な注意点

ただし、これは開発テスト用ではありません。Webブラウジングの自動化に最適化されたツールです。つまり、OpenClawなどでの使用に非常に適しています。開発テストには従来のPlaywright、Chrome Dev、Agent-browserをお勧めします。

参考リンク

ニュースレターに登録

最新のプロジェクト、記事、AIとWeb開発の実験に関する情報をお届けします。