Coller le prompt deux fois a changé la précision du modèle
La méthode la moins chère pour améliorer les performances d'un LLM, validée par Google Research sur 7 modèles. Pas de fine-tuning, pas de prompt engineering. Juste un copier-coller.
Au début, j’ai cru que c’était une blague. Quelqu’un dans un fil de discussion avait dit que coller son prompt deux fois de suite améliorait les réponses. J’ai souri, j’ai passé à autre chose. Trois jours plus tard, je suis tombé sur le papier de Google Research qui confirme exactement ça, chiffres à l’appui, sur sept modèles différents. J’ai arrêté de sourire.
Pourquoi les LLMs ratent ce qu’ils ont pourtant lu
Pour comprendre l’effet, il faut se rappeler comment un modèle de langage traite un prompt. Il lit de gauche à droite, token par token, et chaque token ne peut faire attention qu’aux tokens qui le précèdent. Conséquence directe : la question posée à la fin du prompt voit bien tout le contexte qui la précède, mais le contexte lui, ne voit pas la question. Il a déjà été traité avant que la question existe.
En pratique, ça signifie que les passages les plus utiles pour répondre ne savent pas qu’ils sont utiles. Le modèle fait de son mieux pour relier des éléments qui n’ont jamais pu s’observer mutuellement. Sur des tâches simples, ça marche. Sur des tâches qui demandent de croiser plusieurs informations dans un long contexte, c’est là que ça commence à dérailler.
Ce que fait la répétition
La solution mise en évidence dans Prompt Repetition Improves Non-Reasoning LLMs est d’une bêtise désarmante : on colle le prompt deux fois. La structure devient [contexte + question][contexte + question] plutôt que simplement [contexte + question].
Ce doublement change tout à la mécanique d’attention. Dans la deuxième occurrence, chaque token du contexte peut désormais “voir” la question, parce que la question est apparue avant lui dans la séquence. Les passages pertinents peuvent s’ancrer à ce qu’on cherche. Le modèle ne devine plus, il relie.
Les résultats sur sept benchmarks et sept modèles sont nets. Sur certains jeux d’évaluation, la précision passe de 21 % à 97 %. Ce n’est pas une amélioration marginale. C’est un autre modèle. Et la vitesse d’inférence, elle, ne change pas : le temps de génération reste identique parce que les deux copies du prompt sont traitées en parallèle lors de la phase de prefill.
J’ai testé ça moi-même sur quelques tâches de lecture de documents longs et d’extraction d’informations précises. La différence était visible à l’oeil nu, sans mettre en place d’évaluation formelle. Sur les questions qui nécessitent de croiser plusieurs parties d’un texte, le modèle trouvait et formulait des réponses que la version à prompt unique ratait complètement ou approximait.
Trois fois, c’est une fois de trop
Le réflexe naturel après ce constat serait de pousser plus loin. Si deux fois c’est mieux, trois fois c’est encore mieux, non ?
Non. Le papier le montre clairement : tripler le prompt n’apporte quasiment rien au-delà du doublement, mais multiplie le coût en tokens d’entrée par trois. La phase de prefill supporte bien la parallélisation, ce qui explique pourquoi doubler ne ralentit pas la génération. Mais ça ne change rien au coût de facturation, qui lui est proportionnel aux tokens envoyés. Deux fois : le bon compromis. Trois fois : de l’argent jeté.
Quand ça ne sert à rien
Il serait malhonnête de présenter ça comme une formule universelle. Il y a des cas où la répétition n’apporte rien, et il vaut mieux les connaître avant de la déployer partout.
Pour les questions courtes sans contexte long, l’asymétrie d’attention n’est pas le problème. Si le prompt tient en deux lignes, il n’y a pas de contexte distant à réconcilier avec la question. La répétition n’aide pas.
Les modèles de raisonnement, comme ceux qui utilisent une chaîne de pensée explicite avant de répondre, gèrent déjà ce problème d’une autre façon. Leur processus interne leur permet de revenir sur les informations et de les relier avant de produire une réponse. La répétition du prompt n’a pas d’effet mesurable sur eux.
La méthode s’adresse spécifiquement aux modèles de complétions standards, sans raisonnement intégré, sur des tâches qui demandent de naviguer dans un contexte substantiel.
La question du coût
Doubler le prompt double les tokens en entrée. Sur GPT-4o ou Claude Sonnet, les tokens d’entrée coûtent une fraction de centime par millier. Sur des volumes importants, ça représente quelque chose, mais ça reste sans commune mesure avec ce que coûte une erreur récupérée après coup : un aller-retour supplémentaire, une correction humaine, une logique de retry dans le code.
Pour les pipelines où la précision compte et où les reprises sont coûteuses, la répétition est probablement le meilleur retour sur investissement disponible aujourd’hui, sans toucher à l’architecture ni au modèle.
Ce qui me frappe dans ce papier, c’est moins la technique elle-même que ce qu’elle révèle sur l’écart entre ce qu’on croit que les modèles font et ce qu’ils font réellement. On suppose qu’ils lisent et comprennent. En réalité, ils suivent un flux unidirectionnel avec des contraintes structurelles bien précises. Comprendre ces contraintes, c’est comprendre où et comment intervenir.
Rejoindre la newsletter
Recevez des mises à jour sur mes derniers projets, articles et expériences en IA et développement web.