De 6,7% a 68,3% de tasa de éxito: el harness, no el modelo, marcó la diferencia de 10x
Lo que demuestran los resultados de Terminal Bench de LangChain y el experimento con el formato hashline. El modelo fue el mismo, y la razón por la que el ranking del leaderboard se invirtió fueron tres factores: el prompt, las herramientas y el middleware.
Grok Code Fast tenía una tasa de éxito del 6,7% en el benchmark de codificación. Se sustituyó un único formato de edición sin tocar el modelo y el resultado fue 68,3%. Ni un solo bit de los parámetros del modelo cambió.
Durante las vacaciones, ejecuté agentes por mi cuenta y viví una experiencia similar. El ritmo de lanzamiento de modelos es vertiginoso, pero lo que realmente separó el rendimiento de forma extrema en la práctica no fue el modelo en sí. Fue el harness que lo envuelve: la combinación de prompt de sistema, configuración de herramientas y middleware.
El mismo modelo, un ranking distinto
El equipo de LangChain ejecutó Terminal Bench 2.0 con su propio agente de codificación. Dejaron GPT-5.2-Codex intacto y solo tocaron el prompt de sistema, la configuración de herramientas y el middleware. La puntuación pasó de 52,8 a 66,5 y el agente escaló desde fuera del puesto 30 hasta el top 5 del leaderboard. El coste en entrenamiento del modelo: cero.
La clave fue la distribución del presupuesto de razonamiento. Aplicar xhigh de forma uniforme a todas las tareas se quedaba en 53,9%, pero dividirlo en xhigh-high-xhigh según la dificultad de cada tarea lo llevó hasta el 66,5%. Los problemas que antes fallaban por tiempo de espera se resolvieron con esta estrategia de reparto. El mismo modelo, el mismo presupuesto de tokens, solo cambiaba la forma de distribuirlos.
El formato de edición que ocultaba la verdadera capacidad
Un desarrollador de agentes de código abierto creó un método de edición llamado hashline. Al leer un archivo, cada línea recibe una etiqueta hash de 2 o 3 caracteres, y cuando el modelo realiza modificaciones solo referencia esa etiqueta.
Con el método anterior, el modelo tenía que reproducir el texto original sin equivocarse en ni un solo carácter. Un espacio de más ya era un fallo. Quien haya usado agentes de codificación conoce bien el sufrimiento del error “String not found” que se repite en bucle. hashline sortea este problema de forma estructural.
Los resultados fueron espectaculares. Grok Code Fast saltó del 6,7% al 68,3%, y Grok 4 Fast redujo sus tokens de salida un 61%. GPT-4 Turbo pasó del 26% al 59% con solo cambiar el formato, y Gemini 3 Flash superó su mejor marca anterior en 5 puntos porcentuales. Sin coste de entrenamiento, únicamente cambiando la interfaz de edición.
Sin bucle de verificación, el agente se detiene en la primera respuesta
Existe un patrón de fallo muy habitual. El agente escribe código, lo vuelve a leer, concluye que está bien y termina ahí sin haber ejecutado ni una sola prueba.
El equipo de LangChain introdujo un middleware que obliga a validar el trabajo frente a la especificación de la tarea justo antes de que el agente finalice. Un middleware separado detecta el «bucle de condena», en el que el agente edita el mismo archivo en repetidas ocasiones, y lo impulsa a reconsiderar el enfoque. Sin estos dos mecanismos, la mejora de puntuación habría sido mucho menor. También resultó eficaz inyectar previamente la estructura de directorios y las herramientas disponibles, así como usar avisos de presupuesto de tiempo para empujar al agente a entrar en la fase de verificación.
Los modelos más baratos son más sensibles al harness
MiniMax M2.5 y Kimi K2.5 son rápidos y hábiles con las herramientas de los agentes, a un precio muy inferior al de los grandes modelos. A cambio, su conocimiento base es inferior al de los grandes modelos estadounidenses. MiniMax da la impresión de haber sido entrenado desde el principio como modelo especializado en agentes: al tener menos recursos, apostó por la especialización en lugar de la generalización, y gracias a su bajo precio su uso está creciendo con rapidez en plataformas como Openclaw.
Los resultados del benchmark de hashline muestran que cuanto más débil es el modelo, más extrema es la variación de rendimiento causada por el cambio de formato. MiniMax más que duplicó su tasa de éxito al aplicar hashline. El coste total del benchmark fue de aproximadamente 300 dólares.
El benchmark no es sinónimo de producción
Hay un matiz importante que tener en cuenta. Tanto Terminal Bench como el benchmark de hashline son métricas medidas en entornos controlados. En producción real hay muchas más variables: el tamaño de la base de código, conflictos de dependencias, requisitos ambiguos. Que un agente que marca 66,5% en el benchmark vaya a rendir igual en un proyecto legacy de 100.000 líneas está todavía por demostrar. Que la optimización del harness es eficaz está claro, pero extrapolar directamente el ranking del benchmark al rendimiento en producción es arriesgado.
Aun así, la dirección es clara. Hay un tramo en el que diseñar el harness supera al modelo en términos de ROI. Una parte significativa de los rankings de benchmark que vemos hoy no refleja la capacidad del modelo, sino la calidad del harness.
Únete al boletín
Recibe actualizaciones sobre mis últimos proyectos, artículos y experimentos con IA y desarrollo web.