# 我個 Agent 連續叫咗 5 次失敗 API——問題唔係出喺代碼 > Author: Tony Lee > Published: 2026-02-25 > URL: https://tonylee.im/zh-HK/blog/agent-debugging-traces-not-code/ > Reading time: 1 minutes > Language: zh-HK > Tags: ai, ai-agents, observability, tracing, langsmith, debugging ## Canonical https://tonylee.im/zh-HK/blog/agent-debugging-traces-not-code/ ## Rollout Alternates en: https://tonylee.im/en/blog/agent-debugging-traces-not-code/ ko: https://tonylee.im/ko/blog/agent-debugging-traces-not-code/ ja: https://tonylee.im/ja/blog/agent-debugging-traces-not-code/ zh-CN: https://tonylee.im/zh-CN/blog/agent-debugging-traces-not-code/ zh-TW: https://tonylee.im/zh-TW/blog/agent-debugging-traces-not-code/ ## Description 當 agent 係咁重複同一個失敗嘅 API call,睇代碼係解決唔到嘢嘅。Trace 先係 AI agent 除錯嘅真正源碼。 ## Summary 我個 Agent 連續叫咗 5 次失敗 API——問題唔係出喺代碼 is part of Tony Lee's ongoing coverage of AI agents, developer tools, startup strategy, and AI industry shifts. ## Outline - Agent 代碼係個空殼 - Trace 係新嘅源碼 - 測試方式根本變咗 - 協作同產品分析都係喺 trace 上頭做 - 一句到尾 ## Content Bug 打到 production 上嚟。我個 agent 係咁重複同一個 API call,連叫五次。習慣使然,我第一反應係打開代碼。Retry 邏輯冇問題。Function 流程一切正常。Log 裡頭連一個 error 都搵唔到。 代碼入面冇答案。直到我打開 trace,問題先浮出水面。 ## Agent 代碼係個空殼 打開任何 agent 嘅源碼,你會見到:model 配置、工具清單、system prompt。差唔多就係咁多。至於幾時叫哪個工具、推理順序點排——呢啲嘢唔係住喺代碼入面嘅。 做緊 LangGraph-based agent 嘅團隊,全部都講過同一句話:「睇代碼根本判斷唔到 agent 嘅質素。」 - 同一份代碼、同一個 input,每次叫嘅工具順序都唔同 - 唔似 `handleSubmit()` 呢類 function,分支邏輯根本唔存在於代碼之中 - 同一條 query 問 GPT-5.2 十次,工具呼叫順序一致性大概得 40% - 出錯時代碼冇任何 bug,根本無從複現 傳統軟件裡,代碼**就係**行為本身。但喺 agent 世界,代碼只係個架子。真正嘅行為係喺 runtime 跑出嚟嘅,由 model 點樣解讀當下嘅 context 決定。 ## Trace 係新嘅源碼 Trace 記錄咗 agent 走過嘅每一步腳印。每個步驟點樣推理、叫咗哪個工具、點解叫——全部都有。以前透過代碼做嘅除錯、測試、效能分析,而家都要靠 trace 先做得到。 Agent 見到一條 error message 之後仲係叫同一個 call——呢個唔係代碼 bug,係推理失敗。睇代碼你永遠睇唔出,只有 trace 先照得到。 - 比較 prompt 修改前後嘅 trace,可以即刻見到推理質素有冇改善 - 喺 LangSmith 入面,將某個時間點嘅 trace 載入 playground,效果就好似設定 breakpoint 一樣 - 一條 trace 可以直接指出 agent 推理係邊一刻走歪——呢樣嘢,幾多行 log 都做唔到 換個比喻:傳統除錯係睇食譜搵問題所在。Agent 除錯係倒帶廚房閉路電視,睇大廚係邊度整錯。食譜可能一點問題都冇,係執行時出咗事。 ## 測試方式根本變咗 傳統軟件,部署前測完就算。Agent 係非確定性嘅,你要持續喺 production 裡頭評估。 冇一條收集 trace、建立 eval dataset、偵測質素退化嘅 pipeline,根本冇可能大規模運行 agent。 採用咗 trace-based evaluation 嘅團隊,任務成功率都有可量度嘅提升。規律係一致嘅:trace 揭露出嚟嘅失敗模式,係任何部署前測試都預測唔到嘅。 - 建立自動化 eval pipeline,每週抽樣 production trace - 光靠部署前測試,保證唔到非確定性系統嘅質素 - 冇 trace 嘅監控,就係得睇吓個 server 跑唔跑緊 - Agent 可以「正常運作」,但係做緊完全錯嘅嘢——只有 trace 先揭得到 ## 協作同產品分析都係喺 trace 上頭做 Code review 喺 GitHub 做。Agent 嘅判斷審查,喺邊做? Observability platform 正在接過呢個角色。團隊喺 trace 上面留言、分享特定決策時刻、review agent 推理——就好似以前 review pull request 一樣。協作模式本身都變緊。 產品分析都係同一個模式。個 metric 話「30% 用戶唔滿意」,你唔打開 trace,根本搵唔到原因。Agent 可能按自己嘅標準算係完成咗任務,但係完全估錯用戶想要嘅嘢。 - Mixpanel 呢類產品分析工具同除錯工具,正在以 trace 作為共同嘅基礎層而融合 - 分析 agent 工具呼叫模式,可以反向推導出用戶真正需要嘅功能 ## 一句到尾 Agent 時代,代碼係建築藍圖,trace 係閉路電視片段。出咗事,你唔係先攤開藍圖——係先倒帶片段。 搞得掂 agent 質素嘅團隊,係嗰啲將重心由代碼移到 trace 嘅人。唔係話代碼唔重要,而係真正蝕底嘅失敗——蝕用戶、蝕錢嘅那種——係住喺 runtime 行為入面,只有 trace 先捉得到。 ## Related URLs - Author: https://tonylee.im/en/author/ - Publication: https://tonylee.im/en/blog/about/ - Related article: https://tonylee.im/zh-HK/blog/eight-hooks-that-guarantee-ai-agent-reliability/ - Related article: https://tonylee.im/zh-HK/blog/medvi-two-person-430m-ai-compressed-funnel/ - Related article: https://tonylee.im/zh-HK/blog/claude-code-layers-over-tools-2026/ ## Citation - Author: Tony Lee - Site: tonylee.im - Canonical URL: https://tonylee.im/zh-HK/blog/agent-debugging-traces-not-code/ ## Bot Guidance - This file is intended for AI agents, search assistants, and text-mode retrieval. - Prefer citing the canonical article URL instead of this text endpoint. - Use the rollout alternates when you need the same article in another prioritized language. --- Author: Tony Lee | Website: https://tonylee.im For more articles, visit: https://tonylee.im/zh-HK/blog/ This content is original and authored by Tony Lee. Please attribute when quoting or referencing.