プロンプトを2回貼り付けただけで精度が変わった
Google Researchが7モデルで検証した最も安いLLM性能改善法。追加学習もプロンプト設計も不要。コピペだけで済む。
最初に見たとき、冗談かと思いました。
「プロンプトを2回貼り付けるだけで精度が上がる」という話を聞いたとき、正直バカにしていました。でも発表元がGoogle Researchで、7つのベンチマーク、7つのモデルで検証済みという話を読んで、さすがに無視できなくなりました。自分でも試してみて、確かに効果があることを確認しました。
LLMはコンテキストを「質問を知らないまま」読んでいる
まずそもそもなぜこういうことが起きるのかを理解するために、LLMが入力をどう処理するかを考える必要があります。
多くの言語モデルは左から右へとトークンを処理します。アテンションメカニズムは基本的に後のトークンが前のトークンを参照できますが、その逆は成立しません。つまり、長い文書のあとに質問が来る形式のプロンプトでは、モデルは文書全体を「何を聞かれるかを知らない状態で」エンコードしてしまいます。
[長い文書] → [質問]
↑
ここを処理するとき、
まだ質問の内容を知らない
これは構造上の非対称性です。短い質問なら大した問題にはなりませんが、長い文書になるほどこの歪みが大きくなります。モデルは「後でどんな質問が来るか」を予測しながら文書を読むことはできないわけです。
同じプロンプトを2回並べると何が変わるか
Google Researchの手法はシンプルです。プロンプト全体を2回繰り返すだけです。
[文書 + 質問][文書 + 質問]
この形式だと、2ブロック目の文書を処理するとき、モデルはすでに質問の内容を知っています。1ブロック目に質問を読んでいるからです。その状態で文書を再度読み込むことで、関連する部分により適切なアテンションが向きます。
追加学習は一切不要です。モデルの構造も変えません。ただ入力を繰り返すだけです。
論文では7モデル(Gemini、GPT、Claude、DeepSeekを含む)のすべてで精度が向上しています。あるテストでは21%から97%へと跳ね上がったケースも報告されています。しかも出力のトークン数は変わらず、レイテンシもほぼ同じです。
なぜレイテンシが増えないのかというと、プリフィルの処理はハードウェア上で並列に実行されるからです。入力トークンが2倍になっても、処理時間はほぼ変わりません。体感できる遅延が増えるのは出力フェーズで、そこは変化しないため、ユーザーには差が出にくいわけです。
3回繰り返しは無駄
では3回繰り返したらもっと良くなるのでしょうか。論文によると、ほとんどのケースで2回と3回の差はほぼゼロです。それにもかかわらずコストは単純に1.5倍になります。
[質問][質問] → 回答
[質問][質問][質問] → ほぼ同じ回答、コスト1.5倍
2回が最適です。3回以降は費用対効果がほぼありません。
効果がない場面もある
これは重要な話なので省略しません。
まず、短い質問には効果がありません。「東京の人口は?」のようなシンプルな質問に対してプロンプトを2回貼り付けても、何も変わりません。この手法が効果を発揮するのは、長い文書コンテキストと複雑な質問が組み合わさった場合です。具体的には長文書の要約、Few-shotサンプルを多数含むプロンプト、長い仕様書に基づく推論、といったタスクです。
次に、推論モードを使っているモデルには効果がありません。論文のタイトルにも「Non-Reasoning LLMs」と明記されています。o1やo3、Gemini 2.0 FlashのThinkingモードのような推論特化モデルは、内部でそれに相当する処理をすでに行っているためです。これらのモデルはプロンプトを2回渡しても特に変化はないか、むしろ混乱することがあります。
使う前に確認すること。
- 長い文書コンテキストがある質問か?
- 推論モードをオフにしているか(通常のChatCompletion、非o1系モデル)?
この2点が当てはまるときだけ試す価値があります。
コスト計算
入力トークンが2倍になる以上、コストは増えます。ただし増加幅は「2倍」ではありません。
多くのAPIは入力トークンより出力トークンのほうが高額です。たとえばGPT-4oの場合、入力は出力の約3分の1の単価です。プロンプトを2倍にしても出力は変わらないため、全体のコスト増加は30〜40%程度に収まるケースが多いです。
さらに、精度が上がることで再試行の回数が減れば、実際のコストは相殺されることもあります。1回で正確な答えが返ってくるなら、2〜3回のリトライより安上がりです。
試してみる価値があるかどうか
自分でいくつかのタスクで検証しましたが、長文書の解析や複雑なFew-shotタスクで明確な改善を確認しました。実装は本当に入力を繰り返すだけなので、試すコストはほぼゼロです。
ただ万能ではありません。用途を選びます。
詳細は論文で確認できます。Prompt Repetition Improves Non-Reasoning LLMs(Yaniv Leviathan, Matan Kalman, Yossi Matias, Google Research, arXiv:2512.14982)
ニュースレターに登録
最新のプロジェクト、記事、AIとWeb開発の実験に関する情報をお届けします。