Pegué el prompt dos veces y la precisión cambió
El método más barato para mejorar el rendimiento de un LLM, validado por Google Research en 7 modelos. Sin entrenamiento extra, sin ingeniería de prompts. Solo copiar y pegar.
Llevo meses viendo debates sobre cómo extraerle más a los modelos de lenguaje. Fine-tuning, chain-of-thought, few-shot examples, prompts cada vez más elaborados. Todo tiene un costo: tiempo, dinero o complejidad.
Entonces apareció un paper de Google Research que propone algo que suena absurdo: repetir el prompt. Dos veces. Copiar la instrucción, pegarla al final del mismo mensaje, y listo. Sin modificar el modelo, sin agregar ejemplos, sin técnicas elaboradas.
Lo probé. Funciona. Y vale la pena entender por qué.
Qué descubrió Google Research
El paper se llama Prompt Repetition Improves Non-Reasoning LLMs y evaluó siete modelos distintos en tareas de razonamiento y seguimiento de instrucciones. El hallazgo central es que los LLMs no procesan todo el contexto de manera uniforme. La atención que le dan a distintas partes del texto varía según la posición.
En contextos largos, esto se vuelve problemático. El modelo recibe la instrucción al principio, procesa un bloque extenso de información, y para cuando genera la respuesta, la instrucción original ya no tiene el peso que debería. No es que el modelo la “olvide” en el sentido literal, pero la señal se diluye.
Repetir la instrucción al final del prompt reequilibra esa distribución de atención. La instrucción aparece cerca del punto de generación, donde el modelo la toma en cuenta con más fuerza. El resultado es una respuesta más alineada con lo que pediste.
La mecánica: pegar dos veces
La implementación es literal. Si tienes:
[Instrucción]
[Contenido extenso]
Lo conviertes en:
[Instrucción]
[Contenido extenso]
[Instrucción repetida]
En el paper, la repetición exacta fue la que mejores resultados dio en la mayoría de los casos. No una paráfrasis, no un resumen, sino la misma instrucción copiada tal cual.
Los modelos que más se beneficiaron son los no-reasoning, es decir, los modelos estándar que no hacen razonamiento explícito paso a paso. En esos, la mejora en precisión fue consistente en los siete modelos evaluados.
Para contextos cortos donde la instrucción ya está cerca de la respuesta generada, el efecto existe pero es menor. El beneficio real aparece cuando hay una distancia considerable entre la instrucción y el momento de generación.
Tres repeticiones no ayudan más
Una pregunta obvia: si dos veces mejora, ¿tres veces mejora más?
La respuesta del paper es no. Repetir la instrucción tres o más veces no produjo ganancias adicionales significativas y en algunos casos bajó el rendimiento. El modelo empieza a darle un peso desproporcionado a esa instrucción respecto al contenido, lo que introduce otros problemas.
El punto óptimo identificado fue la repetición doble. Una vez al inicio, una vez al final.
Cuándo no funciona
Esto es importante y el paper no lo oculta: la técnica no es universal.
En tareas creativas donde el modelo necesita cierta libertad para generar variedad, la repetición puede producir respuestas más rígidas o literales de lo deseable. Si el objetivo es generar múltiples opciones diversas o explorar distintos enfoques, fijar la instrucción dos veces puede limitar ese espacio.
También hay casos donde la instrucción en sí es ambigua. Repetirla dos veces no clarifica la ambigüedad, solo la refuerza. Si el prompt original tiene problemas de redacción o no especifica bien lo que querés, la repetición amplifica eso.
Los modelos de razonamiento, los que hacen cadenas de pensamiento explícitas, mostraron ganancias menores. Su arquitectura de procesamiento ya maneja de otra manera la coherencia entre instrucción y respuesta.
Y en contextos cortos donde el prompt completo entra holgadamente en la ventana de atención sin diluirse, el beneficio es marginal. La repetición resuelve un problema de distancia que en esos casos no existe.
El costo es casi cero
Lo que hace interesante a esta técnica no es solo que funcione, sino que el costo de adoptarla es mínimo.
Más tokens en el prompt significa un costo levemente mayor por request si usás una API que cobra por tokens. Pero comparado con el costo de fine-tuning, de agregar ejemplos few-shot extensos, o de migrar a un modelo más grande, duplicar la instrucción es prácticamente gratuito.
No requiere cambios en la arquitectura de tu sistema, no afecta el modelo que ya tenés configurado, y podés activarlo o desactivarlo cambiando una línea en la construcción del prompt.
Para equipos que trabajan con modelos estándar en tareas de extracción, clasificación, seguimiento de instrucciones o análisis de documentos largos, es una de las mejoras con mejor relación esfuerzo-resultado que encontré.
El paper
Prompt Repetition Improves Non-Reasoning LLMs está disponible en arXiv con todos los detalles de la metodología y los resultados por modelo. Vale leerlo si querés ver los números específicos y las variaciones entre tareas.
La próxima vez que tengas un modelo que no sigue bien las instrucciones en documentos largos, antes de cambiar el modelo o construir un pipeline más complicado, probá pegar el prompt dos veces. Los resultados me sorprendieron.
Unite al boletín
Recibí actualizaciones sobre mis últimos proyectos, artículos y experimentos con IA y desarrollo web.