benchmark

2 posts

2026年2月25日

我懶得寫 CLAUDE.md——結果反而做對了

最新 benchmark 數據顯示，AGENTS.md 同 CLAUDE.md 呢啲 context 檔案其實會拖低 coding agent 嘅表現。有時候，懶惰先係最正確嘅工程決策。

2026年2月18日

LangChain 的 Terminal Bench 結果與 hashline 格式實驗所揭示的現象。同一模型排行榜名次逆轉的原因，在於提示詞、工具與中間件三個環節。