De 6.7% a 68.3% de tasa de éxito: el harness, no el modelo, marcó la diferencia de 10x
Lo que demuestran los resultados de Terminal Bench de LangChain y el experimento con el formato hashline. El modelo fue el mismo, y la razón por la que el ranking del leaderboard se invirtió fueron tres factores: el prompt, las herramientas y el middleware.