2026年2月18日 1 分鐘閱讀 2026

任務成功率從 6.7% 到 68.3%：10 倍差距來自 Harness，而非模型

LangChain 的 Terminal Bench 結果與 hashline 格式實驗揭示了什麼。同一個模型排名被逆轉，原因只有三個：提示詞、工具和中介軟體。

Grok Code Fast 的編碼基準成功率是 6.7%。不換模型，只替換一種編輯格式，成功率變成了 68.3%。模型參數一個位元都沒動。

假期期間親自跑 Agent 時，也有過類似的體驗。模型發布速度快到令人窒息，但在實際工作中極端拉開效能差距的，並不是模型本身，而是包裹模型的 Harness，也就是系統提示詞、工具設定和中介軟體的組合。

同一個模型，不同的排名

LangChain 團隊用自研 Coding Agent 跑了 Terminal Bench 2.0。GPT-5.2-Codex 原封不動，只調整了系統提示詞、工具設定和中介軟體。分數從 52.8 漲到了 66.5，從排行榜 30 名之外進入前 5 名。模型訓練成本為零。

核心在於推理預算的分配。對所有任務統一使用 xhigh，成績停留在 53.9%；依任務難度拆分為 xhigh-high-xhigh 後，成績升至 66.5%。原本因超時失敗的問題，透過這種分配策略得到了解決。同樣的模型、同樣的 token 預算，只是分配方式不同。

被編輯格式掩蓋的真實能力

一位開源 Agent 開發者創造了一種叫 hashline 的編輯方式。讀取檔案時，每行都附加一個 2 到 3 個字元的雜湊標籤，模型修改時只需引用該標籤。

舊方式要求模型逐字逐句完整重現原始文字，哪怕一個空格出錯就會失敗。用過 Coding Agent 的人都體會過那種反覆出現「String not found」錯誤的痛苦。hashline 從結構上繞開了這個問題。

結果相當驚人。Grok Code Fast 從 6.7% 躍升至 68.3%，Grok 4 Fast 的輸出 token 減少了 61%。GPT-4 Turbo 僅憑格式切換就從 26% 變成 59%，Gemini 3 Flash 超過了此前的最高紀錄 5 個百分點。沒有任何模型訓練成本，只是換了一個編輯介面。

沒有驗證迴圈，就停在第一個答案上

最常見的失敗模式是這樣的：Agent 寫出程式碼，重新讀一遍，覺得沒問題，然後結束，一次測試都沒跑。

LangChain 團隊在 Agent 退出前加入了一個中介軟體，強制對照任務規格進行驗證。對同一檔案反覆編輯的「末日迴圈」，也透過另一個中介軟體進行偵測，引導 Agent 重新思考方案。沒有這兩個機制，分數提升幅度會小得多。向 Agent 預先注入目錄結構和可用工具，以及透過時間預算警告引導進入驗證階段，同樣發揮了效果。

模型越弱，對 Harness 越敏感

MiniMax M2.5 和 Kimi K2.5 速度快，擅長使用 Agent 工具，價格也比大型模型低得多。代價是基礎知識弱於美國頂尖模型。MiniMax 感覺從一開始就是為 Agent 特化訓練的，資源有限所以選擇專精而非通用，低廉的價格也讓它在 Openclaw 等平台上的使用量快速成長。

從 hashline 基準結果來看，模型越弱，格式切換帶來的效能波動越劇烈。MiniMax 在套用 hashline 後，成功率翻了兩倍以上。整個基準測試的費用大約是 300 美元。

基準不等於生產

有一點需要注意。無論是 Terminal Bench 還是 hashline 基準，都是在受控環境下測量的數值。實際生產中，程式碼庫規模、相依性衝突、模糊需求等變數要複雜得多。在基準上拿到 66.5% 的 Agent，能否在十萬行的遺留專案中維持同樣的表現，目前尚未得到驗證。Harness 最佳化確實有效，但把基準排名直接換算成生產效能是危險的。

方向依然明確。在某些階段，Harness 設計的 ROI 明顯高於模型選型。我們現在看到的基準排名，相當大一部分反映的是 Harness 的品質，而不是模型的能力。

訂閱電子報

獲取最新 AI 洞見。