benchmark

2 posts

2026年2月25日

我懒得写 CLAUDE.md，没想到这反而是对的

最新基准测试数据表明，AGENTS.md 和 CLAUDE.md 这类上下文文件实际上会拖累编程智能体的表现。有时候，懒惰才是最好的工程决策。

2026年2月18日

任务成功率从 6.7% 到 68.3%：10 倍差距来自 Harness，而非模型

LangChain 的 Terminal Bench 结果与 hashline 格式实验揭示了什么。同一个模型排名被逆转，原因只有三个：提示词、工具和中间件。