← 目录
benchmark
2 posts
任务成功率从 6.7% 到 68.3%:10 倍差距来自 Harness,而非模型
LangChain 的 Terminal Bench 结果与 hashline 格式实验揭示了什么。同一个模型排名被逆转,原因只有三个:提示词、工具和中间件。
2 posts
LangChain 的 Terminal Bench 结果与 hashline 格式实验揭示了什么。同一个模型排名被逆转,原因只有三个:提示词、工具和中间件。