harness | Blog | Tony Lee

18 févr. 2026

De 6,7 % à 68,3 % de tâches réussies : c'est le harness, pas le modèle, qui fait une différence de 10x

Ce que révèlent les résultats de Terminal Bench de LangChain et les expériences sur le format hashline. Les trois raisons pour lesquelles les classements se sont inversés avec le même modèle : le prompt, les outils et le middleware.