目錄
1 分鐘閱讀

將提示詞貼兩次,準確率就唔同咗

Google Research 用7個模型驗證嘅最平LLM效能提升方法。唔使額外訓練,唔使提示詞設計,複製貼上就得。

我以前睇到有人話「將問題貼兩次,AI 會答得好啲」,覺得係咁上下係笑話。Ctrl+C,Ctrl+V,就係咁?後來 Google Research 出咗篇論文,七個模型、七個 benchmark 跑落去,原來唔係笑話。

點解 LLM 讀長文會「唔記得」問題喺邊

要明白點解重複有用,要先明白 LLM 點樣讀嘢。

Transformer 係從左讀到右逐個 token 生成答案。你問一個問題,跟住貼一大段背景資料,模型喺讀到背景資料每一個 token 嘅時候,問題嗰啲 token 已經係「好遠之前」嘅嘢喇。

注意力機制(attention)有一個特性:愈後嘅 token,對愈前嘅 token 嘅影響力會相對低。背景資料喺中間,問題喺最前,模型生成答案嘅時候,問題嘅權重已經被稀釋得七七八八。研究入面叫呢個做注意力不對稱(attention asymmetry),唔係理論,係實際量度到嘅現象。

結果係咩?模型答咗一個同你問題表面相似但核心略有出入嘅問題。唔係模型蠢,係結構問題。

重複一次點樣解決呢個問題

將問題放喺背景資料後面再貼多一次,情況就唔同咗。

背景資料入面每個 token 睇向問題嘅時候,問題同時出現喺前後兩個位置。attention 嘅計算覆蓋面大咗,問題相關嘅 token 喺整個 context 入面嘅「能見度」高咗好多。最後生成答案嗰一刻,模型對問題嘅把握係建基於更多嘅注意力路徑,而唔係只靠最開頭果一截。

論文入面測試咗七個唔同嘅模型,包括 Gemini、Llama 同埋幾個唔同規模嘅版本,benchmark 涵蓋多步推理、長文理解、知識問答等等。非推理模型(即係冇經過專門推理訓練嗰種)嘅準確率平均有顯著提升,部分任務升幅係單位數百分比,但喺本身準確率已經偏低嘅任務上,升幅會更明顯。

貼三次點樣

我估你諗緊:咁係咪貼三次仲好?

論文嘅結論係:三次唔係唔得,但邊際收益大幅下跌,而 token 成本係線性增加嘅。由一次去兩次,效果顯著。由兩次去三次,效果微乎其微,但你已經用多咗三分之一嘅 context。對於靠 API 呼叫嘅應用嚟講,呢個係實際嘅成本問題。

兩次係甜蜜點。

幾時唔會有用

呢部分我覺得係論文最誠實嘅地方,值得講清楚。

問題本身好短嘅時候效果有限。 如果你嘅問題只係一兩句,本身佔整個 prompt 嘅比例唔算少,attention 稀釋問題原本已經唔算嚴重,重複帶嚟嘅改善就好細。呢個方法主要係解決長 context 入面問題被「淹沒」嘅情況。

推理模型基本上冇效果。 呢點非常重要。論文嘅題目係”Prompt Repetition Improves Non-Reasoning LLMs”,非推理係關鍵詞。o1、o3、DeepSeek-R1 呢類模型,本身已經有一套延長思考嘅機制去確保問題喺生成過程中被充分考慮,重複問題對佢哋嘅準確率基本上冇統計意義上嘅提升。

任務本身已經準確率接近滿分。 天花板效應,繁複解釋都係多餘。

成本係點計

呢個係工程上要考慮嘅實際問題。

你嘅 prompt 結構大概係:問題(短)+背景資料(長)+問題再一次(短)。多出嚟嘅 token 係問題嘅長度,通常遠少於背景資料本身。如果你原本嘅 prompt 係 2000 token,問題部分係 50 token,重複之後係 2050 token,成本增加唔夠 3%。

但如果你嘅問題本身係幾百 token,計算就要做過。長問題加長背景,重複帶嚟嘅 token 增加比例可以唔細。要自己決定係咪值博。

通常最適合呢個方法嘅場景係:短問題、長背景、非推理模型、準確率有提升空間。RAG 應用係一個明顯例子,問題通常唔長,但背景文件可以好長。

實際用法

冇嘢特別嘅。你嘅 prompt 改成:

{問題}

{背景資料}

{問題,完整複製,唔好縮短}

就係咁。唔使改模型,唔使改參數,唔使寫複雜嘅 prompt。如果你有現成嘅 RAG pipeline,改一行 prompt template 就測試到。

論文係 Google Research 發佈,arXiv 編號 2512.14982,題目係 Prompt Repetition Improves Non-Reasoning LLMs。有興趣睇埋各個 benchmark 嘅具體數字可以直接去讀。

我自己測試咗幾個長文 Q&A 場景,感覺係有差別嘅,雖然唔係每次都顯著。但考慮到改動成本幾乎係零,試一試係合理嘅。

訂閱通訊

獲取關於我最新項目、文章同埋 AI 和 Web 開發實驗嘅更新。