# 把提示詞貼兩次，準確率就不一樣了

> Author: Tony Lee
> Published: 2026-02-20
> URL: https://tonylee.im/zh-TW/blog/repeat-prompt-twice-llm-accuracy-google-research/
> Reading time: 1 minutes
> Language: zh-TW
> Tags: ai, llm, prompt-engineering, google-research, performance

## Canonical

https://tonylee.im/zh-TW/blog/repeat-prompt-twice-llm-accuracy-google-research/

## Rollout Alternates

en: https://tonylee.im/en/blog/repeat-prompt-twice-llm-accuracy-google-research/
ko: https://tonylee.im/ko/blog/repeat-prompt-twice-llm-accuracy-google-research/
ja: https://tonylee.im/ja/blog/repeat-prompt-twice-llm-accuracy-google-research/
zh-CN: https://tonylee.im/zh-CN/blog/repeat-prompt-twice-llm-accuracy-google-research/
zh-TW: https://tonylee.im/zh-TW/blog/repeat-prompt-twice-llm-accuracy-google-research/

## Description

Google Research 用7個模型驗證過的最便宜LLM效能提升方法。不需要額外訓練，不需要提示詞設計，複製貼上就好。

## Summary

把提示詞貼兩次，準確率就不一樣了 is part of Tony Lee's ongoing coverage of AI agents, developer tools, startup strategy, and AI industry shifts.

## Outline

- 為什麼 LLM 讀長文會「忘記」問題在哪裡
- 貼兩次之後發生了什麼
- 貼三次就沒意義了
- 哪些情況沒有效果
- 成本怎麼算才對

## Content

第一次看到這篇論文，我以為是在開玩笑。

把同一段提示詞貼兩次，準確率就會上升？聽起來根本是網路謠言，或是某個人在 Reddit 上亂講的把戲。但那是 Google Research 發的論文，跑了七個 benchmark、測了七個模型，結果是真的。我把它存起來，之後週末拿出來認真看完。

看完之後，我覺得這東西值得好好講清楚。

## 為什麼 LLM 讀長文會「忘記」問題在哪裡

要理解為什麼重複貼有效，要先知道語言模型怎麼讀東西。

LLM 是從左到右一個 token 一個 token 生成回答的。每個 token 的注意力分佈會受到它前面出現過的 token 影響，越早出現的 token，到生成回答時影響力越弱。這叫做「注意力不對稱」。

實際上的意思是：你給模型一段 2000 字的背景資料，後面接一個問題，模型開始生成回答的時候，注意力大多集中在剛剛看到的問題，前面那大段背景資料的影響力已經被稀釋掉了。

模型並沒有壞，它只是照著結構運作。問題在結構本身。

## 貼兩次之後發生了什麼

論文的做法非常直接：把整段提示詞（背景加問題）複製一份，直接貼在後面。

輸入變成 `[背景 + 問題][背景 + 問題]`。

這樣一來，第二次出現的問題裡的 token，可以直接 attend 到第一份背景資料裡的每一個 token，兩邊的距離變近了。同時，第一份背景資料裡的 token，也可以 attend 到第二次出現的問題，補足了它原本欠缺的「這些內容是要用來回答什麼問題」的脈絡。

token 之間的可見性變完整了，模型就比較不會漏掉關鍵資訊。

論文跑的七個 benchmark 裡，這個方法在大多數任務上都有顯著提升，尤其是需要從長篇背景抽取特定資訊的閱讀理解型任務。

## 貼三次就沒意義了

我看到這裡的時候也想說，那貼三次、四次效果是不是更好？

論文的答案是不。

原因跟推論架構有關。現在的 LLM 推論通常會用 prefill 階段來平行處理輸入，但平行化有上限，輸入越長，prefill 的時間成本不是線性增加，而是會有邊際遞減。兩份輸入換來的注意力改善，遠大於三份換來的。

成本算起來也說不通。本來貼兩次輸入 token 數就翻倍，再貼一次變三倍。但邊際效益從第二份之後就掉下來了，多花的錢沒有對應的準確率回報。

兩份是甜蜜點。

## 哪些情況沒有效果

這個部分論文說得很清楚，我覺得比「有效」本身更值得記住。

**問題本身很短的時候沒有用。** 重複的好處來自讓問題 token 能 attend 到更多背景 token。如果你的提示詞本來就只有兩三句話，問題和背景的距離本來就很近，重複一遍沒有改善任何東西，只是增加成本。

**只對非推論模式有效。** 這一點很重要。如果你用的是 o1、o3、DeepSeek-R1，或任何打開「thinking」模式的模型，重複提示詞沒有幫助。原因是推論模型內部已經有類似機制，它們會在生成最終回答之前反覆重新參照問題，等於自己把重複這件事做掉了。貼兩次給推論模型，只是白白多花輸入費用。

**重複的是整段提示詞，不是只有問題。** 我自己剛開始看的時候有誤解，以為只要把問題句重複一遍就好。不是的。要整段，包括背景資料，一起貼兩次。只重複問題的效果比完整重複差很多。

## 成本怎麼算才對

表面上，輸入 token 數乘以二，費用馬上翻倍。但這不是完整的帳。

如果一個任務因為準確率不夠，你需要 retry 或是人工介入修正，那個成本有時候比 2x 輸入費用高很多。用稍微貴一點的輸入換掉不確定性，在很多企業工作流程裡是合理的。

另外，這個技巧不需要任何微調，不需要設計複雜的提示詞結構，不需要等模型廠商推出新版本。你現在就可以試。

這就是為什麼一個看起來很蠢的技巧，實際上值得嚴肅對待。

---

論文原文在這裡：[Prompt Repetition Improves Non-Reasoning LLMs](https://arxiv.org/abs/2512.14982)，arXiv 編號 2512.14982，Google Research 出品。如果你想看完整的 benchmark 數據和模型清單，去原文查比我轉述準確。

## Related URLs

- Author: https://tonylee.im/zh-TW/author/
- Publication: https://tonylee.im/zh-TW/blog/about/
- Related article: https://tonylee.im/zh-TW/blog/medvi-two-person-430m-ai-compressed-funnel/
- Related article: https://tonylee.im/zh-TW/blog/claude-code-layers-over-tools-2026/
- Related article: https://tonylee.im/zh-TW/blog/codex-inside-claude-code-openai-plugin-strategy/

## Citation

- Author: Tony Lee
- Site: tonylee.im
- Canonical URL: https://tonylee.im/zh-TW/blog/repeat-prompt-twice-llm-accuracy-google-research/

## Bot Guidance

- This file is intended for AI agents, search assistants, and text-mode retrieval.
- Prefer citing the canonical article URL instead of this text endpoint.
- Use the rollout alternates when you need the same article in another prioritized language.

---

Author: Tony Lee | Website: https://tonylee.im
For more articles, visit: https://tonylee.im/zh-TW/blog/
This content is original and authored by Tony Lee. Please attribute when quoting or referencing.