# 任務成功率從 6.7% 到 68.3%：10 倍差距來自 Harness，而非模型

> Author: Tony Lee
> Published: 2026-02-18
> URL: https://tonylee.im/zh-TW/blog/ai-agent-harness-not-model-10x-performance/
> Reading time: 1 minutes
> Language: zh-TW
> Tags: ai, ai-agents, harness, benchmark, langchain, prompt-engineering

## Canonical

https://tonylee.im/zh-TW/blog/ai-agent-harness-not-model-10x-performance/

## Rollout Alternates

en: https://tonylee.im/en/blog/ai-agent-harness-not-model-10x-performance/
ko: https://tonylee.im/ko/blog/ai-agent-harness-not-model-10x-performance/
ja: https://tonylee.im/ja/blog/ai-agent-harness-not-model-10x-performance/
zh-CN: https://tonylee.im/zh-CN/blog/ai-agent-harness-not-model-10x-performance/
zh-TW: https://tonylee.im/zh-TW/blog/ai-agent-harness-not-model-10x-performance/

## Description

LangChain 的 Terminal Bench 結果與 hashline 格式實驗揭示了什麼。同一個模型排名被逆轉，原因只有三個：提示詞、工具和中介軟體。

## Summary

任務成功率從 6.7% 到 68.3%：10 倍差距來自 Harness，而非模型 is part of Tony Lee's ongoing coverage of AI agents, developer tools, startup strategy, and AI industry shifts.

## Outline

- 同一個模型，不同的排名
- 被編輯格式掩蓋的真實能力
- 沒有驗證迴圈，就停在第一個答案上
- 模型越弱，對 Harness 越敏感
- 基準不等於生產

## Content

Grok Code Fast 的編碼基準成功率是 6.7%。不換模型，只替換一種編輯格式，成功率變成了 68.3%。模型參數一個位元都沒動。

假期期間親自跑 Agent 時，也有過類似的體驗。模型發布速度快到令人窒息，但在實際工作中極端拉開效能差距的，並不是模型本身，而是包裹模型的 Harness，也就是系統提示詞、工具設定和中介軟體的組合。

## 同一個模型，不同的排名

LangChain 團隊用自研 Coding Agent 跑了 Terminal Bench 2.0。GPT-5.2-Codex 原封不動，只調整了系統提示詞、工具設定和中介軟體。分數從 52.8 漲到了 66.5，從排行榜 30 名之外進入前 5 名。模型訓練成本為零。

核心在於推理預算的分配。對所有任務統一使用 xhigh，成績停留在 53.9%；依任務難度拆分為 xhigh-high-xhigh 後，成績升至 66.5%。原本因超時失敗的問題，透過這種分配策略得到了解決。同樣的模型、同樣的 token 預算，只是分配方式不同。

## 被編輯格式掩蓋的真實能力

一位開源 Agent 開發者創造了一種叫 hashline 的編輯方式。讀取檔案時，每行都附加一個 2 到 3 個字元的雜湊標籤，模型修改時只需引用該標籤。

舊方式要求模型逐字逐句完整重現原始文字，哪怕一個空格出錯就會失敗。用過 Coding Agent 的人都體會過那種反覆出現「String not found」錯誤的痛苦。hashline 從結構上繞開了這個問題。

結果相當驚人。Grok Code Fast 從 6.7% 躍升至 68.3%，Grok 4 Fast 的輸出 token 減少了 61%。GPT-4 Turbo 僅憑格式切換就從 26% 變成 59%，Gemini 3 Flash 超過了此前的最高紀錄 5 個百分點。沒有任何模型訓練成本，只是換了一個編輯介面。

## 沒有驗證迴圈，就停在第一個答案上

最常見的失敗模式是這樣的：Agent 寫出程式碼，重新讀一遍，覺得沒問題，然後結束，一次測試都沒跑。

LangChain 團隊在 Agent 退出前加入了一個中介軟體，強制對照任務規格進行驗證。對同一檔案反覆編輯的「末日迴圈」，也透過另一個中介軟體進行偵測，引導 Agent 重新思考方案。沒有這兩個機制，分數提升幅度會小得多。向 Agent 預先注入目錄結構和可用工具，以及透過時間預算警告引導進入驗證階段，同樣發揮了效果。

## 模型越弱，對 Harness 越敏感

MiniMax M2.5 和 Kimi K2.5 速度快，擅長使用 Agent 工具，價格也比大型模型低得多。代價是基礎知識弱於美國頂尖模型。MiniMax 感覺從一開始就是為 Agent 特化訓練的，資源有限所以選擇專精而非通用，低廉的價格也讓它在 Openclaw 等平台上的使用量快速成長。

從 hashline 基準結果來看，模型越弱，格式切換帶來的效能波動越劇烈。MiniMax 在套用 hashline 後，成功率翻了兩倍以上。整個基準測試的費用大約是 300 美元。

## 基準不等於生產

有一點需要注意。無論是 Terminal Bench 還是 hashline 基準，都是在受控環境下測量的數值。實際生產中，程式碼庫規模、相依性衝突、模糊需求等變數要複雜得多。在基準上拿到 66.5% 的 Agent，能否在十萬行的遺留專案中維持同樣的表現，目前尚未得到驗證。Harness 最佳化確實有效，但把基準排名直接換算成生產效能是危險的。

方向依然明確。在某些階段，Harness 設計的 ROI 明顯高於模型選型。我們現在看到的基準排名，相當大一部分反映的是 Harness 的品質，而不是模型的能力。

## Related URLs

- Author: https://tonylee.im/zh-TW/author/
- Publication: https://tonylee.im/zh-TW/blog/about/
- Related article: https://tonylee.im/zh-TW/blog/eight-hooks-that-guarantee-ai-agent-reliability/
- Related article: https://tonylee.im/zh-TW/blog/medvi-two-person-430m-ai-compressed-funnel/
- Related article: https://tonylee.im/zh-TW/blog/claude-code-layers-over-tools-2026/

## Citation

- Author: Tony Lee
- Site: tonylee.im
- Canonical URL: https://tonylee.im/zh-TW/blog/ai-agent-harness-not-model-10x-performance/

## Bot Guidance

- This file is intended for AI agents, search assistants, and text-mode retrieval.
- Prefer citing the canonical article URL instead of this text endpoint.
- Use the rollout alternates when you need the same article in another prioritized language.

---

Author: Tony Lee | Website: https://tonylee.im
For more articles, visit: https://tonylee.im/zh-TW/blog/
This content is original and authored by Tony Lee. Please attribute when quoting or referencing.