一覧へ
1 分で読めます

プロンプトを2回貼り付けただけで精度が変わった

Google Researchが7モデルで検証した最も安いLLM性能改善法。追加学習もプロンプト設計も不要。コピペだけで済む。

最初に見たとき、冗談かと思いました。

「プロンプトを2回貼り付けるだけで精度が上がる」という話を聞いたとき、正直バカにしていました。でも発表元がGoogle Researchで、7つのベンチマーク、7つのモデルで検証済みという話を読んで、さすがに無視できなくなりました。自分でも試してみて、確かに効果があることを確認しました。

LLMはコンテキストを「質問を知らないまま」読んでいる

まずそもそもなぜこういうことが起きるのかを理解するために、LLMが入力をどう処理するかを考える必要があります。

多くの言語モデルは左から右へとトークンを処理します。アテンションメカニズムは基本的に後のトークンが前のトークンを参照できますが、その逆は成立しません。つまり、長い文書のあとに質問が来る形式のプロンプトでは、モデルは文書全体を「何を聞かれるかを知らない状態で」エンコードしてしまいます。

[長い文書] → [質問]

ここを処理するとき、
まだ質問の内容を知らない

これは構造上の非対称性です。短い質問なら大した問題にはなりませんが、長い文書になるほどこの歪みが大きくなります。モデルは「後でどんな質問が来るか」を予測しながら文書を読むことはできないわけです。

同じプロンプトを2回並べると何が変わるか

Google Researchの手法はシンプルです。プロンプト全体を2回繰り返すだけです。

[文書 + 質問][文書 + 質問]

この形式だと、2ブロック目の文書を処理するとき、モデルはすでに質問の内容を知っています。1ブロック目に質問を読んでいるからです。その状態で文書を再度読み込むことで、関連する部分により適切なアテンションが向きます。

追加学習は一切不要です。モデルの構造も変えません。ただ入力を繰り返すだけです。

論文では7モデル(Gemini、GPT、Claude、DeepSeekを含む)のすべてで精度が向上しています。あるテストでは21%から97%へと跳ね上がったケースも報告されています。しかも出力のトークン数は変わらず、レイテンシもほぼ同じです。

なぜレイテンシが増えないのかというと、プリフィルの処理はハードウェア上で並列に実行されるからです。入力トークンが2倍になっても、処理時間はほぼ変わりません。体感できる遅延が増えるのは出力フェーズで、そこは変化しないため、ユーザーには差が出にくいわけです。

3回繰り返しは無駄

では3回繰り返したらもっと良くなるのでしょうか。論文によると、ほとんどのケースで2回と3回の差はほぼゼロです。それにもかかわらずコストは単純に1.5倍になります。

[質問][質問] → 回答 [質問][質問][質問] → ほぼ同じ回答、コスト1.5倍

2回が最適です。3回以降は費用対効果がほぼありません。

効果がない場面もある

これは重要な話なので省略しません。

まず、短い質問には効果がありません。「東京の人口は?」のようなシンプルな質問に対してプロンプトを2回貼り付けても、何も変わりません。この手法が効果を発揮するのは、長い文書コンテキストと複雑な質問が組み合わさった場合です。具体的には長文書の要約、Few-shotサンプルを多数含むプロンプト、長い仕様書に基づく推論、といったタスクです。

次に、推論モードを使っているモデルには効果がありません。論文のタイトルにも「Non-Reasoning LLMs」と明記されています。o1やo3、Gemini 2.0 FlashのThinkingモードのような推論特化モデルは、内部でそれに相当する処理をすでに行っているためです。これらのモデルはプロンプトを2回渡しても特に変化はないか、むしろ混乱することがあります。

使う前に確認すること。

  • 長い文書コンテキストがある質問か?
  • 推論モードをオフにしているか(通常のChatCompletion、非o1系モデル)?

この2点が当てはまるときだけ試す価値があります。

コスト計算

入力トークンが2倍になる以上、コストは増えます。ただし増加幅は「2倍」ではありません。

多くのAPIは入力トークンより出力トークンのほうが高額です。たとえばGPT-4oの場合、入力は出力の約3分の1の単価です。プロンプトを2倍にしても出力は変わらないため、全体のコスト増加は30〜40%程度に収まるケースが多いです。

さらに、精度が上がることで再試行の回数が減れば、実際のコストは相殺されることもあります。1回で正確な答えが返ってくるなら、2〜3回のリトライより安上がりです。

試してみる価値があるかどうか

自分でいくつかのタスクで検証しましたが、長文書の解析や複雑なFew-shotタスクで明確な改善を確認しました。実装は本当に入力を繰り返すだけなので、試すコストはほぼゼロです。

ただ万能ではありません。用途を選びます。

詳細は論文で確認できます。Prompt Repetition Improves Non-Reasoning LLMs(Yaniv Leviathan, Matan Kalman, Yossi Matias, Google Research, arXiv:2512.14982)

ニュースレターに登録

最新のプロジェクト、記事、AIとWeb開発の実験に関する情報をお届けします。