任務成功率從 6.7% 到 68.3%:10 倍差距來自 Harness,而非模型
LangChain 的 Terminal Bench 結果與 hashline 格式實驗揭示了什麼。同一個模型排名被逆轉,原因只有三個:提示詞、工具和中介軟體。
Grok Code Fast 的編碼基準成功率是 6.7%。不換模型,只替換一種編輯格式,成功率變成了 68.3%。模型參數一個位元都沒動。
假期期間親自跑 Agent 時,也有過類似的體驗。模型發布速度快到令人窒息,但在實際工作中極端拉開效能差距的,並不是模型本身,而是包裹模型的 Harness,也就是系統提示詞、工具設定和中介軟體的組合。
同一個模型,不同的排名
LangChain 團隊用自研 Coding Agent 跑了 Terminal Bench 2.0。GPT-5.2-Codex 原封不動,只調整了系統提示詞、工具設定和中介軟體。分數從 52.8 漲到了 66.5,從排行榜 30 名之外進入前 5 名。模型訓練成本為零。
核心在於推理預算的分配。對所有任務統一使用 xhigh,成績停留在 53.9%;依任務難度拆分為 xhigh-high-xhigh 後,成績升至 66.5%。原本因超時失敗的問題,透過這種分配策略得到了解決。同樣的模型、同樣的 token 預算,只是分配方式不同。
被編輯格式掩蓋的真實能力
一位開源 Agent 開發者創造了一種叫 hashline 的編輯方式。讀取檔案時,每行都附加一個 2 到 3 個字元的雜湊標籤,模型修改時只需引用該標籤。
舊方式要求模型逐字逐句完整重現原始文字,哪怕一個空格出錯就會失敗。用過 Coding Agent 的人都體會過那種反覆出現「String not found」錯誤的痛苦。hashline 從結構上繞開了這個問題。
結果相當驚人。Grok Code Fast 從 6.7% 躍升至 68.3%,Grok 4 Fast 的輸出 token 減少了 61%。GPT-4 Turbo 僅憑格式切換就從 26% 變成 59%,Gemini 3 Flash 超過了此前的最高紀錄 5 個百分點。沒有任何模型訓練成本,只是換了一個編輯介面。
沒有驗證迴圈,就停在第一個答案上
最常見的失敗模式是這樣的:Agent 寫出程式碼,重新讀一遍,覺得沒問題,然後結束,一次測試都沒跑。
LangChain 團隊在 Agent 退出前加入了一個中介軟體,強制對照任務規格進行驗證。對同一檔案反覆編輯的「末日迴圈」,也透過另一個中介軟體進行偵測,引導 Agent 重新思考方案。沒有這兩個機制,分數提升幅度會小得多。向 Agent 預先注入目錄結構和可用工具,以及透過時間預算警告引導進入驗證階段,同樣發揮了效果。
模型越弱,對 Harness 越敏感
MiniMax M2.5 和 Kimi K2.5 速度快,擅長使用 Agent 工具,價格也比大型模型低得多。代價是基礎知識弱於美國頂尖模型。MiniMax 感覺從一開始就是為 Agent 特化訓練的,資源有限所以選擇專精而非通用,低廉的價格也讓它在 Openclaw 等平台上的使用量快速成長。
從 hashline 基準結果來看,模型越弱,格式切換帶來的效能波動越劇烈。MiniMax 在套用 hashline 後,成功率翻了兩倍以上。整個基準測試的費用大約是 300 美元。
基準不等於生產
有一點需要注意。無論是 Terminal Bench 還是 hashline 基準,都是在受控環境下測量的數值。實際生產中,程式碼庫規模、相依性衝突、模糊需求等變數要複雜得多。在基準上拿到 66.5% 的 Agent,能否在十萬行的遺留專案中維持同樣的表現,目前尚未得到驗證。Harness 最佳化確實有效,但把基準排名直接換算成生產效能是危險的。
方向依然明確。在某些階段,Harness 設計的 ROI 明顯高於模型選型。我們現在看到的基準排名,相當大一部分反映的是 Harness 的品質,而不是模型的能力。
訂閱電子報
獲取關於我最新專案、文章以及 AI 和 Web 開發實驗的更新。