Pegué el prompt dos veces y la precisión cambió
El método más barato para mejorar el rendimiento de un LLM, validado por Google Research en 7 modelos. Sin entrenamiento adicional, sin ingeniería de prompts. Solo copiar y pegar.
Llevo meses buscando formas de exprimir más rendimiento a los modelos que uso a diario sin que me cueste una fortuna. He probado cadenas de pensamiento, few-shot examples, instrucciones más detalladas. Y resulta que lo que funcionó mejor fue algo que descubrí casi por accidente: pegar el mismo prompt dos veces seguidas.
No lo inventé yo. Lo validó Google Research en siete modelos distintos. Pero el principio es tan sencillo que cuesta creerlo hasta que lo ves en los datos.
Por qué los LLMs no leen igual todo el texto
Los modelos de lenguaje no procesan el texto de forma uniforme. Prestan más atención a determinadas partes del contexto según su posición: el principio y el final del prompt tienen más peso que el centro. Es lo que en la literatura técnica se llama sesgo posicional.
Esto tiene consecuencias prácticas. Si tu instrucción principal está enterrada en el párrafo tres, hay posibilidades reales de que el modelo la infrapondere. La información que aparece al principio y al final tiene más influencia sobre la respuesta final.
El problema se agrava cuando trabajas con contextos largos. Cuanto más texto hay en medio, más se diluye lo que pusiste al principio. El modelo “recuerda” peor las instrucciones que están temporalmente distantes del punto donde genera la respuesta.
La solución: pegar el prompt dos veces
El paper Prompt Repetition Improves Non-Reasoning LLMs de Yaniv Leviathan, Matan Kalman y Yossi Matias de Google Research propone algo que al principio suena a broma: repetir el prompt completo al final del contexto.
La estructura quedaría así:
[Tu instrucción completa]
[El contenido o contexto que necesites]
[Tu instrucción completa, repetida tal cual]
El modelo lee la instrucción al principio, procesa el contenido, y vuelve a encontrar la instrucción justo antes de generar la respuesta. Así aparece tanto en la posición inicial como en la final, las dos zonas de mayor atención.
Los resultados que reportan son llamativos. En tareas de razonamiento, resumen y seguimiento de instrucciones, la repetición mejora la precisión de forma consistente en los siete modelos que evaluaron. Sin fine-tuning, sin cambios en la arquitectura, sin ingeniería de prompts elaborada. Solo copiar y pegar.
Tres veces es demasiado
Una pregunta obvia: si dos veces funciona mejor, ¿tres veces funcionaría aún mejor?
Los autores lo probaron. La respuesta es no. La tercera repetición no aporta mejora significativa y en algunos casos degrada el rendimiento. El modelo empieza a tratar la repetición como ruido en vez de como señal relevante.
El punto óptimo está en dos repeticiones. Es un equilibrio entre asegurarte de que la instrucción aparece en ambas posiciones privilegiadas y no saturar el contexto con contenido redundante que confunda al modelo.
Cuándo no funciona
Este método no es universal. Los modelos de razonamiento extendido, los que hacen chain-of-thought largo antes de responder, no se benefician de la repetición de la misma manera. Modelos como o1 de OpenAI o los que usan razonamiento explícito ya tienen mecanismos internos para mantener el contexto de la tarea activo durante todo el proceso de generación.
La repetición ayuda principalmente a los modelos estándar de completado de texto. También pierde efectividad cuando el prompt es muy corto: si tu instrucción son dos líneas, el modelo ya la tiene perfectamente presente sin necesidad de refuerzo posicional.
Y hay un caso donde puede perjudicar: si el contenido que procesas es muy corto y la instrucción repetida ocupa una proporción grande del contexto total, el ratio señal-ruido se invierte. El modelo ve más instrucción que contenido real.
Lo que cuesta y lo que vale
El coste directo de repetir el prompt es sencillo de calcular: los tokens de la instrucción multiplicados por dos. Si tu instrucción tiene 200 tokens, pagas 200 tokens extra por cada llamada. Con los precios actuales de la mayoría de APIs, estamos hablando de fracciones de céntimo por consulta.
Comparad eso con las alternativas habituales para mejorar rendimiento: más ejemplos few-shot (más tokens), cadenas de pensamiento (muchos más tokens), fine-tuning (coste fijo elevado más tiempo de preparación de datos). La repetición de prompt es la intervención más barata por punto de mejora que conozco.
Vosotros podéis hacer este cálculo para vuestro caso concreto. Si procesáis millones de consultas al día, el coste extra de los tokens adicionales puede ser relevante y hay que compararlo con la mejora en calidad. Para la mayoría de casos de uso, la ecuación sale a favor de la repetición sin necesidad de analizarla demasiado.
El paper completo
Los detalles metodológicos, los benchmarks específicos y el análisis por tipo de tarea están en Prompt Repetition Improves Non-Reasoning LLMs de Yaniv Leviathan, Matan Kalman y Yossi Matias (Google Research). Vale la pena leerlo si queréis entender exactamente qué tipos de tareas se benefician más y en qué condiciones los beneficios son más pronunciados.
Lo que me parece más útil del paper no es solo el resultado, sino la explicación de por qué funciona. Entender el sesgo posicional de los modelos cambia cómo pienso en el diseño de prompts en general, no solo para aplicar esta técnica específica.
Únete al boletín
Recibe actualizaciones sobre mis últimos proyectos, artículos y experimentos con IA y desarrollo web.