# 任務成功率從 6.7% 升至 68.3%:讓性能相差 10 倍的是 harness,不是模型 > Author: Tony Lee > Published: 2026-02-18 > URL: https://tonylee.im/zh-HK/blog/ai-agent-harness-not-model-10x-performance/ > Reading time: 1 minutes > Language: zh-HK > Tags: ai, ai-agents, harness, benchmark, langchain, prompt-engineering ## Canonical https://tonylee.im/zh-HK/blog/ai-agent-harness-not-model-10x-performance/ ## Rollout Alternates en: https://tonylee.im/en/blog/ai-agent-harness-not-model-10x-performance/ ko: https://tonylee.im/ko/blog/ai-agent-harness-not-model-10x-performance/ ja: https://tonylee.im/ja/blog/ai-agent-harness-not-model-10x-performance/ zh-CN: https://tonylee.im/zh-CN/blog/ai-agent-harness-not-model-10x-performance/ zh-TW: https://tonylee.im/zh-TW/blog/ai-agent-harness-not-model-10x-performance/ ## Description LangChain 的 Terminal Bench 結果與 hashline 格式實驗所揭示的現象。同一模型排行榜名次逆轉的原因,在於提示詞、工具與中間件三個環節。 ## Summary 任務成功率從 6.7% 升至 68.3%:讓性能相差 10 倍的是 harness,不是模型 is part of Tony Lee's ongoing coverage of AI agents, developer tools, startup strategy, and AI industry shifts. ## Outline - 相同模型,不同排名 - 被編輯格式掩蓋的真實實力 - 沒有驗證循環,agent 便止步於第一個答案 - 越便宜的模型,對 harness 越敏感 - 基準測試並不等同於實際生產 ## Content Grok Code Fast 的編碼基準測試成功率為 6.7%。在不更換模型的情況下,僅替換一個編輯格式,成功率便升至 68.3%。模型參數一個比特都沒有動過。 假期期間親自跑 agent 時,我有過類似的體驗。模型發佈速度快得令人喘不過氣,但在實際工作中對性能產生極端差異的,並非模型本身,而是包裹模型的 harness,也就是系統提示詞、工具配置與中間件的組合。 ## 相同模型,不同排名 LangChain 團隊用自家編碼 agent 跑了 Terminal Bench 2.0。GPT-5.2-Codex 保持不變,只調整了系統提示詞、工具配置與中間件。分數從 52.8 升至 66.5,排名從榜外第 30 名以後躋身前 5 名。模型訓練費用為零。 關鍵在於推理預算的分配。將 xhigh 統一套用於所有任務時,成功率停在 53.9%;但按任務難度拆分為 xhigh-high-xhigh 後,便升至 66.5%。原本因超時而失敗的問題,透過這種分配策略得以解決。相同模型、相同 token 預算,差別只在分配方式。 ## 被編輯格式掩蓋的真實實力 一位開源 agent 開發者創造了名為 hashline 的編輯方式。讀取文件時,在每一行附上 2 至 3 個字符的哈希標籤;模型修改時,只需引用這些標籤。 舊有方式要求模型一字不差地複現原始文字,連一個空格也不能錯,否則就會失敗。用過編碼 agent 的人都深知反覆出現 "String not found" 錯誤的痛苦。hashline 從結構上繞開了這個問題。 結果相當顯著。Grok Code Fast 從 6.7% 躍升至 68.3%,Grok 4 Fast 的輸出 token 減少了 61%。GPT-4 Turbo 僅憑格式替換便從 26% 升至 59%,Gemini 3 Flash 則超越了舊有最高紀錄 5 個百分點。沒有任何模型訓練成本,只是更換了一個編輯介面。 ## 沒有驗證循環,agent 便止步於第一個答案 最常見的失敗模式如下:agent 寫好代碼,回頭讀一遍自己寫的代碼,判斷沒問題,從未跑過任何測試便就此結束。 LangChain 團隊在 agent 終止前加入了一個中間件,強制對照任務規格進行驗證。對同一文件反覆編輯的「死循環」,也由另一個中間件負責偵測,引導 agent 重新考量解題思路。若缺少這兩個機制,分數提升幅度將會小得多。提前向 agent 注入目錄結構與可用工具,並透過時間預算警告引導 agent 進入驗證階段,同樣收效明顯。 ## 越便宜的模型,對 harness 越敏感 MiniMax M2.5 和 Kimi K2.5 速度快,擅長使用 agent 工具,價格也遠低於大型模型。但相較於美國大型模型,其基礎知識較為薄弱。MiniMax 給人的感覺是從一開始便針對 agent 場景專項訓練。資源有限,因而選擇專項而非通用路線,加上低廉的價格,令其在 Openclaw 等平台上的使用量急速攀升。 從 hashline 基準測試結果來看,模型越弱,格式替換帶來的性能波動幅度越大。MiniMax 在套用 hashline 後,成功率翻了一倍以上。整個基準測試的費用約為 $300。 ## 基準測試並不等同於實際生產 有一點需要注意。無論是 Terminal Bench 還是 hashline 基準測試,測量的都是受控環境下的數值。在實際生產中,代碼庫規模、依賴衝突、需求模糊等變數要多得多。在基準測試中達到 66.5% 的 agent,能否在十萬行的遺留項目中保持同等水準,目前尚未經過驗證。harness 優化的效果是明確的,但直接將基準測試排名換算為實際生產性能,則存在相當風險。 儘管如此,方向是清晰的。在 ROI 層面,harness 設計超越模型選擇的區間確實存在。當前我們所見的基準測試排名,有相當大一部分反映的不是模型實力,而是 harness 的品質。 ## Related URLs - Author: https://tonylee.im/en/author/ - Publication: https://tonylee.im/en/blog/about/ - Related article: https://tonylee.im/zh-HK/blog/eight-hooks-that-guarantee-ai-agent-reliability/ - Related article: https://tonylee.im/zh-HK/blog/medvi-two-person-430m-ai-compressed-funnel/ - Related article: https://tonylee.im/zh-HK/blog/claude-code-layers-over-tools-2026/ ## Citation - Author: Tony Lee - Site: tonylee.im - Canonical URL: https://tonylee.im/zh-HK/blog/ai-agent-harness-not-model-10x-performance/ ## Bot Guidance - This file is intended for AI agents, search assistants, and text-mode retrieval. - Prefer citing the canonical article URL instead of this text endpoint. - Use the rollout alternates when you need the same article in another prioritized language. --- Author: Tony Lee | Website: https://tonylee.im For more articles, visit: https://tonylee.im/zh-HK/blog/ This content is original and authored by Tony Lee. Please attribute when quoting or referencing.