De 6,7% a 68,3% de tasa de éxito: el harness, no el modelo, marcó la diferencia de 10x
Lo que demuestran los resultados de Terminal Bench de LangChain y el experimento con el formato hashline. El modelo fue el mismo, y la razón por la que el ranking del leaderboard se invirtió fueron tres factores: el prompt, las herramientas y el middleware.