# 프롬프트를 두 번 붙여 넣었을 뿐인데 정확도가 달라졌다 > Author: Tony Lee > Published: 2026-02-20 > URL: https://tonylee.im/ko/blog/repeat-prompt-twice-llm-accuracy-google-research/ > Reading time: 3 minutes > Language: ko > Tags: ai, llm, prompt-engineering, google-research, performance ## Canonical https://tonylee.im/ko/blog/repeat-prompt-twice-llm-accuracy-google-research/ ## Rollout Alternates en: https://tonylee.im/en/blog/repeat-prompt-twice-llm-accuracy-google-research/ ko: https://tonylee.im/ko/blog/repeat-prompt-twice-llm-accuracy-google-research/ ja: https://tonylee.im/ja/blog/repeat-prompt-twice-llm-accuracy-google-research/ zh-CN: https://tonylee.im/zh-CN/blog/repeat-prompt-twice-llm-accuracy-google-research/ zh-TW: https://tonylee.im/zh-TW/blog/repeat-prompt-twice-llm-accuracy-google-research/ ## Description Google Research가 7개 모델로 검증한 가장 저렴한 LLM 성능 개선법. 추가 학습도 프롬프트 설계도 필요 없다. 복붙이면 된다. ## Summary 프롬프트를 두 번 붙여 넣었을 뿐인데 정확도가 달라졌다 is part of Tony Lee's ongoing coverage of AI agents, developer tools, startup strategy, and AI industry shifts. ## Outline - LLM은 질문을 모른 채 맥락을 읽습니다 - 두 번 보내면 모든 토큰이 서로를 봅니다 - 세 번은 오히려 손해입니다 - 직접 테스트해보니 안 되는 경우도 있었습니다 - 비용 구조를 따져보면 ## Content 솔직히 처음 봤을 때 장난인 줄 알았습니다. 프롬프트를 두 번 붙여 넣는 것만으로 정확도가 올라간다니요. Google Research가 7개 벤치마크, 7개 모델로 검증한 논문이었습니다. 직접 테스트해보고 나서야 왜 작동하는지 이해가 됐습니다. ## LLM은 질문을 모른 채 맥락을 읽습니다 LLM은 텍스트를 왼쪽에서 오른쪽으로 처리합니다. 맥락을 읽는 시점에는 아직 질문이 뭔지 모릅니다. 프롬프트 앞부분의 정보는 뒤에 어떤 질문이 올지 전혀 모른 채 처리됩니다. 구체적으로 보면, attention 메커니즘에서 앞쪽 토큰들은 뒤쪽 토큰을 참조할 수 없습니다. "서울의 인구는 약 950만 명이다"라는 맥락이 있고, 뒤에 "서울 인구가 몇 명이냐"는 질문이 오면, "950만"이라는 토큰은 "인구가 몇 명이냐"를 전혀 보지 못한 채 인코딩됩니다. 맥락과 질문 사이에 구조적인 비대칭이 생기는 겁니다. 긴 프롬프트일수록 이 비대칭이 심해집니다. 맥락이 풍부할수록 오히려 질문과의 연결이 약해지는 역설적인 상황이 벌어집니다. ## 두 번 보내면 모든 토큰이 서로를 봅니다 [맥락 + 질문][맥락 + 질문] 형태로 보내면 두 번째 패스에서 모든 구간이 서로를 참조할 수 있게 됩니다. 첫 번째 [맥락 + 질문]을 통해 질문이 뭔지 미리 알게 되고, 두 번째 맥락을 읽을 때는 어디에 집중해야 하는지 파악한 상태입니다. 추가 학습이 필요 없고 프롬프트 설계도 필요 없습니다. 같은 내용을 한 번 더 붙여 넣으면 됩니다. Google Research의 검증 결과를 보면, Gemini, GPT, Claude, DeepSeek 계열을 포함한 7개 모델 모두에서 정확도가 올라갔습니다. 한 테스트에서는 21%에서 97%까지 뛰어오른 사례도 있었습니다. 출력 길이 증가는 없었고, 응답 속도도 사실상 동일했습니다. ## 세 번은 오히려 손해입니다 두 번 반복이 효과적인 이유 중 하나는 입력 처리가 하드웨어에서 병렬로 돌아가기 때문입니다. Transformer의 prefill 단계에서 입력 토큰들은 동시에 처리됩니다. 토큰 수가 두 배가 되어도 벽시계 기준 처리 시간은 거의 늘지 않습니다. 세 번부터는 비용 대비 수익이 급격히 나빠집니다. 토큰 비용은 세 배가 되는데 성능 향상은 미미합니다. ``가 정답이고 ``는 낭비입니다. ## 직접 테스트해보니 안 되는 경우도 있었습니다 논문 결과가 인상적이라 직접 테스트를 해봤습니다. 짧은 질문에는 차이가 거의 없었습니다. "서울 날씨 알려줘" 같은 단순 질의에서는 반복해봐야 의미가 없었습니다. 효과가 드러나는 건 긴 맥락이 포함된 복잡한 질문이었습니다. 문서를 붙여 넣고 요약이나 분석을 요청할 때, 혹은 Few-shot 예시가 많이 포함된 프롬프트에서 차이가 뚜렷했습니다. 또 하나, 이 기법은 논문 제목에도 명시되어 있듯 non-reasoning 모드에서만 효과가 있습니다. o1이나 Gemini의 thinking 모드처럼 reasoning이 활성화된 모델에서는 이미 내부적으로 비슷한 반복 처리를 하기 때문에 추가 반복의 효과가 사라집니다. 사용하는 모델과 모드를 확인한 뒤에 적용해야 합니다. ## 비용 구조를 따져보면 두 번 반복은 입력 토큰이 두 배가 됩니다. 대부분의 API에서 입력 토큰 비용은 출력 토큰 비용보다 훨씬 저렴하므로, 전체 비용 증가는 2배보다 적습니다. 정확도가 의미 있게 올라간다면, 오답으로 인한 재시도 비용이 줄어드는 효과까지 고려하면 실질적으로 더 저렴해질 수도 있습니다. 가장 어이없지만, 이론적으로도 검증되고 직접 테스트에서도 확인된, AI의 가장 저렴한 성능 개선법은 프롬프트를 두 번 붙여 넣는 것이었습니다. 논문: [Prompt Repetition Improves Non-Reasoning LLMs](https://arxiv.org/abs/2512.14982) (Yaniv Leviathan, Matan Kalman, Yossi Matias, Google Research) ## Related URLs - Author: https://tonylee.im/ko/author/ - Publication: https://tonylee.im/ko/blog/about/ - Related article: https://tonylee.im/ko/blog/medvi-two-person-430m-ai-compressed-funnel/ - Related article: https://tonylee.im/ko/blog/claude-code-layers-over-tools-2026/ - Related article: https://tonylee.im/ko/blog/codex-inside-claude-code-openai-plugin-strategy/ ## Citation - Author: Tony Lee - Site: tonylee.im - Canonical URL: https://tonylee.im/ko/blog/repeat-prompt-twice-llm-accuracy-google-research/ ## Bot Guidance - This file is intended for AI agents, search assistants, and text-mode retrieval. - Prefer citing the canonical article URL instead of this text endpoint. - Use the rollout alternates when you need the same article in another prioritized language. --- Author: Tony Lee | Website: https://tonylee.im For more articles, visit: https://tonylee.im/ko/blog/ This content is original and authored by Tony Lee. Please attribute when quoting or referencing.