프롬프트를 두 번 붙여 넣었을 뿐인데 정확도가 달라졌다
Google Research가 7개 모델로 검증한 가장 저렴한 LLM 성능 개선법. 추가 학습도 프롬프트 설계도 필요 없다. 복붙이면 된다.
솔직히 처음 봤을 때 장난인 줄 알았습니다. 프롬프트를 두 번 붙여 넣는 것만으로 정확도가 올라간다니요. Google Research가 7개 벤치마크, 7개 모델로 검증한 논문이었습니다. 직접 테스트해보고 나서야 왜 작동하는지 이해가 됐습니다.
LLM은 질문을 모른 채 맥락을 읽는다
LLM은 텍스트를 왼쪽에서 오른쪽으로 처리합니다. 맥락을 읽는 시점에는 아직 질문이 뭔지 모릅니다. 프롬프트 앞부분의 정보는 뒤에 어떤 질문이 올지 전혀 모른 채 처리됩니다.
구체적으로 보면, attention 메커니즘에서 앞쪽 토큰들은 뒤쪽 토큰을 참조할 수 없습니다. “서울의 인구는 약 950만 명이다”라는 맥락이 있고, 뒤에 “서울 인구가 몇 명이냐”는 질문이 오면, “950만”이라는 토큰은 “인구가 몇 명이냐”를 전혀 보지 못한 채 인코딩됩니다. 맥락과 질문 사이에 구조적인 비대칭이 생기는 겁니다.
긴 프롬프트일수록 이 비대칭이 심해집니다. 맥락이 풍부할수록 오히려 질문과의 연결이 약해지는 역설적인 상황이 벌어집니다.
두 번 보내면 모든 토큰이 서로를 본다
[맥락 + 질문][맥락 + 질문] 형태로 보내면 두 번째 패스에서 모든 구간이 서로를 참조할 수 있게 됩니다. 첫 번째 [맥락 + 질문]을 통해 질문이 뭔지 미리 알게 되고, 두 번째 맥락을 읽을 때는 어디에 집중해야 하는지 파악한 상태입니다.
추가 학습이 필요 없고 프롬프트 설계도 필요 없습니다. 같은 내용을 한 번 더 붙여 넣으면 됩니다.
Google Research의 검증 결과를 보면, Gemini, GPT, Claude, DeepSeek 계열을 포함한 7개 모델 모두에서 정확도가 올라갔습니다. 한 테스트에서는 21%에서 97%까지 뛰어오른 사례도 있었습니다. 출력 길이 증가는 없었고, 응답 속도도 사실상 동일했습니다.
세 번은 오히려 손해다
두 번 반복이 효과적인 이유 중 하나는 입력 처리가 하드웨어에서 병렬로 돌아가기 때문입니다. Transformer의 prefill 단계에서 입력 토큰들은 동시에 처리됩니다. 토큰 수가 두 배가 되어도 벽시계 기준 처리 시간은 거의 늘지 않습니다.
세 번부터는 비용 대비 수익이 급격히 나빠집니다. 토큰 비용은 세 배가 되는데 성능 향상은 미미합니다. <QUERY><QUERY>가 정답이고 <QUERY><QUERY><QUERY>는 낭비입니다.
직접 테스트해보니 안 되는 경우도 있었다
논문 결과가 인상적이라 직접 테스트를 해봤습니다. 짧은 질문에는 차이가 거의 없었습니다. “서울 날씨 알려줘” 같은 단순 질의에서는 반복해봐야 의미가 없었습니다. 효과가 드러나는 건 긴 맥락이 포함된 복잡한 질문이었습니다. 문서를 붙여 넣고 요약이나 분석을 요청할 때, 혹은 Few-shot 예시가 많이 포함된 프롬프트에서 차이가 뚜렷했습니다.
또 하나, 이 기법은 논문 제목에도 명시되어 있듯 non-reasoning 모드에서만 효과가 있습니다. o1이나 Gemini의 thinking 모드처럼 reasoning이 활성화된 모델에서는 이미 내부적으로 비슷한 반복 처리를 하기 때문에 추가 반복의 효과가 사라집니다. 사용하는 모델과 모드를 확인한 뒤에 적용해야 합니다.
비용 구조를 따져보면
두 번 반복은 입력 토큰이 두 배가 됩니다. 대부분의 API에서 입력 토큰 비용은 출력 토큰 비용보다 훨씬 저렴하므로, 전체 비용 증가는 2배보다 적습니다. 정확도가 의미 있게 올라간다면, 오답으로 인한 재시도 비용이 줄어드는 효과까지 고려하면 실질적으로 더 저렴해질 수도 있습니다.
가장 어이없지만, 이론적으로도 검증되고 직접 테스트에서도 확인된, AI의 가장 저렴한 성능 개선법은 프롬프트를 두 번 붙여 넣는 것이었습니다.
논문: Prompt Repetition Improves Non-Reasoning LLMs (Yaniv Leviathan, Matan Kalman, Yossi Matias, Google Research)
뉴스레터 구독하기
최신 프로젝트, 아티클, AI와 웹 개발 실험에 대한 소식을 받아보세요.