De 6,7% para 68,3% de taxa de sucesso: foi o harness, não o modelo, que fez a diferença de 10x
O que os resultados do Terminal Bench da LangChain e os experimentos com o formato hashline revelaram. Por que o ranking do leaderboard se inverteu com o mesmo modelo: prompt, ferramentas e middleware foram os três fatores decisivos.