2026年2月18日 1 分鐘閱讀

任務成功率從 6.7% 升至 68.3%：讓性能相差 10 倍的是 harness，不是模型

LangChain 的 Terminal Bench 結果與 hashline 格式實驗所揭示的現象。同一模型排行榜名次逆轉的原因，在於提示詞、工具與中間件三個環節。

ai ai-agents harness benchmark langchain prompt-engineering

Grok Code Fast 的編碼基準測試成功率為 6.7%。在不更換模型的情況下，僅替換一個編輯格式，成功率便升至 68.3%。模型參數一個比特都沒有動過。

假期期間親自跑 agent 時，我有過類似的體驗。模型發佈速度快得令人喘不過氣，但在實際工作中對性能產生極端差異的，並非模型本身，而是包裹模型的 harness，也就是系統提示詞、工具配置與中間件的組合。

相同模型，不同排名

LangChain 團隊用自家編碼 agent 跑了 Terminal Bench 2.0。GPT-5.2-Codex 保持不變，只調整了系統提示詞、工具配置與中間件。分數從 52.8 升至 66.5，排名從榜外第 30 名以後躋身前 5 名。模型訓練費用為零。

關鍵在於推理預算的分配。將 xhigh 統一套用於所有任務時，成功率停在 53.9%；但按任務難度拆分為 xhigh-high-xhigh 後，便升至 66.5%。原本因超時而失敗的問題，透過這種分配策略得以解決。相同模型、相同 token 預算，差別只在分配方式。

被編輯格式掩蓋的真實實力

一位開源 agent 開發者創造了名為 hashline 的編輯方式。讀取文件時，在每一行附上 2 至 3 個字符的哈希標籤；模型修改時，只需引用這些標籤。

舊有方式要求模型一字不差地複現原始文字，連一個空格也不能錯，否則就會失敗。用過編碼 agent 的人都深知反覆出現 “String not found” 錯誤的痛苦。hashline 從結構上繞開了這個問題。

結果相當顯著。Grok Code Fast 從 6.7% 躍升至 68.3%，Grok 4 Fast 的輸出 token 減少了 61%。GPT-4 Turbo 僅憑格式替換便從 26% 升至 59%，Gemini 3 Flash 則超越了舊有最高紀錄 5 個百分點。沒有任何模型訓練成本，只是更換了一個編輯介面。

沒有驗證循環，agent 便止步於第一個答案

最常見的失敗模式如下：agent 寫好代碼，回頭讀一遍自己寫的代碼，判斷沒問題，從未跑過任何測試便就此結束。

LangChain 團隊在 agent 終止前加入了一個中間件，強制對照任務規格進行驗證。對同一文件反覆編輯的「死循環」，也由另一個中間件負責偵測，引導 agent 重新考量解題思路。若缺少這兩個機制，分數提升幅度將會小得多。提前向 agent 注入目錄結構與可用工具，並透過時間預算警告引導 agent 進入驗證階段，同樣收效明顯。

越便宜的模型，對 harness 越敏感

MiniMax M2.5 和 Kimi K2.5 速度快，擅長使用 agent 工具，價格也遠低於大型模型。但相較於美國大型模型，其基礎知識較為薄弱。MiniMax 給人的感覺是從一開始便針對 agent 場景專項訓練。資源有限，因而選擇專項而非通用路線，加上低廉的價格，令其在 Openclaw 等平台上的使用量急速攀升。

從 hashline 基準測試結果來看，模型越弱，格式替換帶來的性能波動幅度越大。MiniMax 在套用 hashline 後，成功率翻了一倍以上。整個基準測試的費用約為 $300。

基準測試並不等同於實際生產

有一點需要注意。無論是 Terminal Bench 還是 hashline 基準測試，測量的都是受控環境下的數值。在實際生產中，代碼庫規模、依賴衝突、需求模糊等變數要多得多。在基準測試中達到 66.5% 的 agent，能否在十萬行的遺留項目中保持同等水準，目前尚未經過驗證。harness 優化的效果是明確的，但直接將基準測試排名換算為實際生產性能，則存在相當風險。

儘管如此，方向是清晰的。在 ROI 層面，harness 設計超越模型選擇的區間確實存在。當前我們所見的基準測試排名，有相當大一部分反映的不是模型實力，而是 harness 的品質。

訂閱通訊

獲取關於我最新項目、文章同埋 AI 和 Web 開發實驗嘅更新。