2026年2月25日 1 分で読めます 2026

エージェントが失敗したAPIを5回呼び続けた——バグはコードになかった

エージェントが同じAPIコールを繰り返すとき、コードレビューは役に立たない。トレースこそがAIエージェントデバッグの新しいソースコードだ。

本番でバグが出た。エージェントが同じAPIコールを5回繰り返していた。習慣でまずコードを開いた。リトライロジックは正常。関数の流れもおかしくない。ログにはエラーひとつない。

コードに答えはなかった。トレースを開いて初めて、原因が見えた。

エージェントのコードは抜け殻だ

エージェントのソースコードを開くと、モデルの指定、ツールの一覧、システムプロンプト——だいたいそれだけだ。どのタイミングでどのツールを呼ぶか、どういう推論の順序で動くか、そういったことはコードに書いていない。

LangGraphベースのエージェントを運用しているチームが口を揃えて言う。「コードレビューでエージェントの品質は判断できない」と。

これが本質的な変化だ。従来のソフトウェアでは、コード自体が振る舞いだった。エージェントでは、コードは足場に過ぎない。実際の振る舞いはランタイムで生まれる——モデルが受け取ったコンテキストを元に推論した結果として。

トレースは、エージェントが踏んだすべての足跡を記録する。各ステップで何を考え、なぜそのツールを呼んだか——すべてが残る。コードを読んで行っていたデバッグ、テスト、パフォーマンス分析は、今やトレースを通じて行うしかない。

エージェントがエラーメッセージを受け取って、それでも同じコールを繰り返すとき、それはコードのバグではない。推論の失敗だ。そしてそれはトレースにしか見えない。

こう考えるとわかりやすい。従来のデバッグはレシピを読んでミスを探すことだ。エージェントのデバッグはキッチンの監視カメラ映像を見て、シェフがどこで間違えたかを確認することだ。レシピは完璧かもしれない。問題は実行の中にある。

従来のソフトウェアはデプロイ前にテストして終わりだった。エージェントは非決定的なので、本番で評価し続けなければならない。

トレースを収集して評価データセットを作り、品質の劣化やドリフトを検知するパイプラインがなければ、エージェントをスケールさせて運用することは不可能だ。

トレースベースの評価を取り入れたチームでは、タスク成功率に目に見える改善が出ている。パターンは一貫している——デプロイ前のどんなテストスイートでも予測できなかった障害モードが、トレースから浮かび上がってくる。

コードレビューはGitHubでやる。エージェントの判断のレビューはどこでやるのか。

その役割を担っているのが観測プラットフォームだ。チームはトレースにコメントし、特定の意思決定ポイントを共有し、プルリクエストをレビューしていたように、エージェントの推論をレビューしている。コラボレーションのモデルそのものが変わりつつある。

プロダクト分析も同じ構図だ。指標が「ユーザーの30%が不満を持っている」と示しても、トレースを開かなければ原因にたどり着けない。エージェントは自分の基準では正常にタスクをこなしていながら、ユーザーが本当に求めていたものを完全に外している可能性がある。

エージェントの時代において、コードは建物の設計図でトレースは防犯カメラの映像だ。建物の中で何かが起きたとき、最初に設計図を広げるのではなく、映像を巻き戻す。

エージェントの品質を高めているチームは、重心をコードからトレースに移したチームだ。コードが重要でないのではない。ユーザーとお金を失うような本当の障害は、トレースにしか記録されないランタイムの振る舞いの中にあるからだ。

最新のAIに関するインサイトをお届けします。