# 任務成功率從 6.7% 到 68.3%:10 倍差距來自 Harness,而非模型 > Author: Tony Lee > Published: 2026-02-18 > URL: https://tonylee.im/zh-TW/blog/ai-agent-harness-not-model-10x-performance/ > Reading time: 1 minutes > Language: zh-TW > Tags: ai, ai-agents, harness, benchmark, langchain, prompt-engineering ## Canonical https://tonylee.im/zh-TW/blog/ai-agent-harness-not-model-10x-performance/ ## Rollout Alternates en: https://tonylee.im/en/blog/ai-agent-harness-not-model-10x-performance/ ko: https://tonylee.im/ko/blog/ai-agent-harness-not-model-10x-performance/ ja: https://tonylee.im/ja/blog/ai-agent-harness-not-model-10x-performance/ zh-CN: https://tonylee.im/zh-CN/blog/ai-agent-harness-not-model-10x-performance/ zh-TW: https://tonylee.im/zh-TW/blog/ai-agent-harness-not-model-10x-performance/ ## Description LangChain 的 Terminal Bench 結果與 hashline 格式實驗揭示了什麼。同一個模型排名被逆轉,原因只有三個:提示詞、工具和中介軟體。 ## Summary 任務成功率從 6.7% 到 68.3%:10 倍差距來自 Harness,而非模型 is part of Tony Lee's ongoing coverage of AI agents, developer tools, startup strategy, and AI industry shifts. ## Outline - 同一個模型,不同的排名 - 被編輯格式掩蓋的真實能力 - 沒有驗證迴圈,就停在第一個答案上 - 模型越弱,對 Harness 越敏感 - 基準不等於生產 ## Content Grok Code Fast 的編碼基準成功率是 6.7%。不換模型,只替換一種編輯格式,成功率變成了 68.3%。模型參數一個位元都沒動。 假期期間親自跑 Agent 時,也有過類似的體驗。模型發布速度快到令人窒息,但在實際工作中極端拉開效能差距的,並不是模型本身,而是包裹模型的 Harness,也就是系統提示詞、工具設定和中介軟體的組合。 ## 同一個模型,不同的排名 LangChain 團隊用自研 Coding Agent 跑了 Terminal Bench 2.0。GPT-5.2-Codex 原封不動,只調整了系統提示詞、工具設定和中介軟體。分數從 52.8 漲到了 66.5,從排行榜 30 名之外進入前 5 名。模型訓練成本為零。 核心在於推理預算的分配。對所有任務統一使用 xhigh,成績停留在 53.9%;依任務難度拆分為 xhigh-high-xhigh 後,成績升至 66.5%。原本因超時失敗的問題,透過這種分配策略得到了解決。同樣的模型、同樣的 token 預算,只是分配方式不同。 ## 被編輯格式掩蓋的真實能力 一位開源 Agent 開發者創造了一種叫 hashline 的編輯方式。讀取檔案時,每行都附加一個 2 到 3 個字元的雜湊標籤,模型修改時只需引用該標籤。 舊方式要求模型逐字逐句完整重現原始文字,哪怕一個空格出錯就會失敗。用過 Coding Agent 的人都體會過那種反覆出現「String not found」錯誤的痛苦。hashline 從結構上繞開了這個問題。 結果相當驚人。Grok Code Fast 從 6.7% 躍升至 68.3%,Grok 4 Fast 的輸出 token 減少了 61%。GPT-4 Turbo 僅憑格式切換就從 26% 變成 59%,Gemini 3 Flash 超過了此前的最高紀錄 5 個百分點。沒有任何模型訓練成本,只是換了一個編輯介面。 ## 沒有驗證迴圈,就停在第一個答案上 最常見的失敗模式是這樣的:Agent 寫出程式碼,重新讀一遍,覺得沒問題,然後結束,一次測試都沒跑。 LangChain 團隊在 Agent 退出前加入了一個中介軟體,強制對照任務規格進行驗證。對同一檔案反覆編輯的「末日迴圈」,也透過另一個中介軟體進行偵測,引導 Agent 重新思考方案。沒有這兩個機制,分數提升幅度會小得多。向 Agent 預先注入目錄結構和可用工具,以及透過時間預算警告引導進入驗證階段,同樣發揮了效果。 ## 模型越弱,對 Harness 越敏感 MiniMax M2.5 和 Kimi K2.5 速度快,擅長使用 Agent 工具,價格也比大型模型低得多。代價是基礎知識弱於美國頂尖模型。MiniMax 感覺從一開始就是為 Agent 特化訓練的,資源有限所以選擇專精而非通用,低廉的價格也讓它在 Openclaw 等平台上的使用量快速成長。 從 hashline 基準結果來看,模型越弱,格式切換帶來的效能波動越劇烈。MiniMax 在套用 hashline 後,成功率翻了兩倍以上。整個基準測試的費用大約是 300 美元。 ## 基準不等於生產 有一點需要注意。無論是 Terminal Bench 還是 hashline 基準,都是在受控環境下測量的數值。實際生產中,程式碼庫規模、相依性衝突、模糊需求等變數要複雜得多。在基準上拿到 66.5% 的 Agent,能否在十萬行的遺留專案中維持同樣的表現,目前尚未得到驗證。Harness 最佳化確實有效,但把基準排名直接換算成生產效能是危險的。 方向依然明確。在某些階段,Harness 設計的 ROI 明顯高於模型選型。我們現在看到的基準排名,相當大一部分反映的是 Harness 的品質,而不是模型的能力。 ## Related URLs - Author: https://tonylee.im/zh-TW/author/ - Publication: https://tonylee.im/zh-TW/blog/about/ - Related article: https://tonylee.im/zh-TW/blog/eight-hooks-that-guarantee-ai-agent-reliability/ - Related article: https://tonylee.im/zh-TW/blog/medvi-two-person-430m-ai-compressed-funnel/ - Related article: https://tonylee.im/zh-TW/blog/claude-code-layers-over-tools-2026/ ## Citation - Author: Tony Lee - Site: tonylee.im - Canonical URL: https://tonylee.im/zh-TW/blog/ai-agent-harness-not-model-10x-performance/ ## Bot Guidance - This file is intended for AI agents, search assistants, and text-mode retrieval. - Prefer citing the canonical article URL instead of this text endpoint. - Use the rollout alternates when you need the same article in another prioritized language. --- Author: Tony Lee | Website: https://tonylee.im For more articles, visit: https://tonylee.im/zh-TW/blog/ This content is original and authored by Tony Lee. Please attribute when quoting or referencing.