2026년 3월 19일 3 분 소요 2026

2026년 AI의 승부처는 Loop의 반복입니다

Skill, Subagent, Slash command를 전부 세팅해도 밤새 돌린 루프 하나가 더 나은 결과를 가져왔습니다. Ralph, RLM, autoresearch 세 가지 반복 구조를 분석합니다.

Skill을 만들었습니다. Subagent도 세팅했고, Slash command도 정리했습니다. 그런데 밤새 돌려놓은 루프 하나가 그 모든 세팅보다 나은 결과를 가져왔습니다.

2026년 3월, AI로 가장 멀리 가는 방법은 단순한 반복을 멈추지 않고 돌리는 것입니다.

Ralph Loop: 실패해도 밀어붙이는 bash 한 줄

원형은 while :; do cat PROMPT.md | claude-code ; done입니다. 에이전트가 작업을 마치고 나가려 하면 Stop Hook이 exit을 막고 같은 프롬프트를 다시 넣습니다.

핵심은 매 회차마다 context window를 새로 여는 것입니다. 이전 작업 내용은 git history와 파일 시스템에만 남기고, context 자체는 항상 깨끗하게 시작합니다. 대화가 길어질수록 성능이 떨어지는 기존 agent loop의 고질병이 여기에는 없습니다.

매 반복 후 AGENTS.md에 학습 내용이 기록되고, 다음 회차 에이전트가 이를 자동으로 읽어서 같은 실수를 반복하지 않습니다. 하나의 task가 10회 이상 실패하면 자동으로 stuck 처리되고, 더 작은 단위로 쪼개서 재시도합니다. 실패 자체가 정보가 되는 설계입니다. Huntley의 표현대로 “deterministically bad”한 결과가 다음 루프의 입력이 됩니다.

다만 한 가지 솔직한 고백을 하자면, 처음 Ralph를 돌렸을 때 10번 중 3번은 루프가 같은 실수를 반복하며 토큰만 소모했습니다. AGENTS.md에 학습 내용을 제대로 기록하도록 프롬프트를 다듬고 나서야 누적 학습이 실제로 작동하기 시작했습니다. 도구 자체보다 프롬프트 설계가 결과를 결정합니다.

Ralph 저장소

RLM: 모델이 자기 자신을 재귀 호출하는 추론

보통 긴 문서를 LLM에 넣으면 뒤쪽 내용을 놓치거나 정확도가 떨어집니다. RLM은 이 문제를 완전히 다른 방식으로 풀었습니다.

긴 프롬프트를 모델에 직접 넣지 않고 Python REPL 환경에 변수로 올려둡니다. 모델이 직접 코드를 짜서 그 변수를 쪼개고 탐색하고, 필요한 부분만 골라서 자기 자신을 다시 호출합니다. context window를 키우는 대신 모델 스스로가 맥락을 어떻게 읽을지 결정하게 만든 것입니다.

GPT-5-mini에 RLM을 적용한 결과가 OOLONG 벤치마크에서 GPT-5 정답 수의 2배 이상을 기록했습니다. 재귀 호출의 전체 궤적이 코드로 남기 때문에 모델이 왜 그런 답을 냈는지 경로를 그대로 추적할 수 있습니다. 요약이나 RAG처럼 정보를 압축하는 게 아니라 필요한 조각만 골라서 하위 LM에 위임하는 방식이라 정보 손실이 구조적으로 발생하지 않습니다.

RLM 저장소

autoresearch: 잠든 사이 100번 실험하는 루프

에이전트에게 train.py 하나를 주고 자유롭게 고치게 합니다. 아키텍처를 바꾸든 옵티마이저를 손보든 상관없습니다. 정확히 5분간 훈련을 돌리고 val_bpb가 낮아졌으면 commit, 아니면 reset합니다.

이걸 밤새 반복하면 아침에 일어났을 때 어떤 변경이 효과가 있었고 어떤 게 실패했는지 로그가 쌓여 있습니다. 사람은 program.md에 방향만 적어두면 됩니다.

5분이라는 고정 시간 예산 덕분에 모델 크기를 바꾸든 batch size를 바꾸든 모든 실험이 동일 조건에서 비교됩니다. 공정한 비교가 반복의 질을 높이는 핵심입니다. git branch 위에서 돌아가기 때문에 실패한 실험은 reset으로 사라지고, 성공한 실험만 commit으로 누적됩니다. 아침에 git log만 보면 개선 이력이 한눈에 보입니다.

Karpathy의 다음 구상은 SETI@home처럼 여러 에이전트가 각자 다른 방향으로 실험하고 결과를 합치는 분산 연구 구조입니다. 다만 현재 autoresearch는 단일 머신에서만 돌아가고, 5분 안에 유의미한 차이가 나지 않는 실험은 전부 버려지는 한계가 있습니다. 모든 종류의 연구에 적합한 것은 아닙니다.

autoresearch 저장소

왜 반복이 효과를 보이는가

세 도구의 공통점이 있습니다. 모델을 키우지 않고 추론 시점에 연산을 더 쓰면 성능이 올라간다는 test-time compute scaling의 이점을 활용한다는 것입니다.

OpenAI o1이 이미 검증한 이 원리를 Ralph는 코드 품질에, RLM은 맥락 이해에, autoresearch는 연구에 각각 적용했습니다.

결국 세 가지 요소가 합쳐질 때 단순한 코드를 넘어서는 결과가 나옵니다.

중요한 생각
검증 조건이 명확한 루프
밤새 돌릴 토큰 예산

당신이 잠든 8시간이 누군가에게는 100번의 개선이 일어나는 시간이 되고 있습니다. 물론 100번 모두가 성공하는 것은 아닙니다. 그래도 괜찮습니다. 실패가 쌓이는 것 자체가 다음 루프의 연료이기 때문입니다.

뉴스레터 구독하기

최신 프로젝트, 아티클, AI와 웹 개발 실험에 대한 소식을 받아보세요.