2026年2月25日 1 分鐘閱讀

我懶得寫 CLAUDE.md——結果反而做對了

最新 benchmark 數據顯示，AGENTS.md 同 CLAUDE.md 呢啲 context 檔案其實會拖低 coding agent 嘅表現。有時候，懶惰先係最正確嘅工程決策。

每次 timeline 出現關於 CLAUDE.md（或者 AGENTS.md）嘅帖子，我都話自己「遲啲先搞」，然後繼續碌落去。睇住其他人建構精心設計嘅 AGENTS.md 配置，心裡頭其實有少少擔心——係咪落後咗？

直到最近有新嘅 benchmark 數據出咗，我呢份擔憂即刻消散。原來我嘅懶惰，係幾理性嘅工程決定。

LLM 自動生成嘅 context 檔案只會幫倒忙

「多啲 context 應該有幫助㗎嘛？」我之前都係咁諗。

但研究人員喺 SWE-bench Lite 測試 LLM 自動生成嘅 context 時，成功率反而跌咗 0.5%。AgentBench 上頭再跌多 2%。就算係人手細心寫嘅檔案，都只係改善咗 4%。我會叫呢個現象做「context 過擬合」。

Gloaguen 等人嘅論文 “Evaluating AGENTS.md” 已確認：context 檔案往往令任務成功率低過完全唔提供 repo 背景嘅情況。

問題唔係 agent 唔聽你話。恰恰相反。

你喺 context 檔案入面寫一行叫 agent 用 uv，佢就算喺完全唔需要嘅情況下，都會裝晒、跑晒 uv，每次都多幾個多餘步驟。

用 GPT-5.2 測試，有 context 檔案嘅時候推理 token 增加咗 14–22%。Agent 忙住跟指令，反而唔專心解決問題本身。

我之前寫過 SKILL.md 正文內容喺特定時機先被讀取嘅問題，AGENTS.md 都有類似情況。

佢坐喺 system prompt 同 user prompt 之間嘅「developer message」層。呢個位置對 agent 推理嘅束縛好大。

你寫「唔好動呢個檔案」，agent 就會多花一次心思喺呢個檔案上面。研究人員將呢個稱為「粉紅大象效應」——叫人唔好諗粉紅大象，腦海裡第一樣浮現嘅偏偏就係粉紅大象。

如果你嘅 repo 完全冇任何文件，context 檔案確實有幫助——數據顯示呢種情況有 2.7% 嘅正面效果。但若果真係要寫，請盡量精簡。

一行寫 repo 專用嘅 build 工具。一行糾正 agent 反覆犯嘅錯誤模式。

加一個「如果發現結構上有古怪，立即報告」嘅 hack，agent 就變成專門舉報代碼庫漏洞嘅工具。超出呢個範圍，令代碼結構更直觀，遠比寫一大堆指引來得有效。

寫得一份好嘅 context 檔案，唔一定係有本事嘅表現。真正有本事，係理解 context 檔案嘅結構，圍繞佢設計 meta-system。而有時候，「懶得去做」，先係最好嘅工程決定。

獲取最新 AI 洞見。