De 6,7 % à 68,3 % de tâches réussies : c'est le harness, pas le modèle, qui fait une différence de 10x
Ce que révèlent les résultats de Terminal Bench de LangChain et les expériences sur le format hashline. Les trois raisons pour lesquelles les classements se sont inversés avec le même modèle : le prompt, les outils et le middleware.