AI가 인간 수준 추론에 처음으로 근접하다 - Poetiq, ARC-AGI-2에서 50% 돌파
Poetiq의 재귀적 메타 시스템이 진정한 범용 지능을 테스트하는 벤치마크 ARC-AGI-2에서 최초로 50%를 돌파했다. 6명의 팀이 절반의 비용으로 Google을 능가한 방법을 알아본다.
Poetiq이 ARC-AGI 벤치마크에서 역사를 만들었다.
ARC-AGI는 AI가 진정한 범용 지능을 갖추고 있는지 평가하기 위해 설계된 테스트다. 학습 데이터를 단순히 암기해서 뱉어내도록 요구하지 않는다. 대신 완전히 새로운 패턴 문제를 제시하고, 시스템이 스스로 기저의 규칙을 추론해내도록 요구한다. 인간의 평균 정확도는 약 60%다. 지금까지 AI 시스템들은 이 수치에 한참 못 미쳤다.
Poetiq의 결과가 중요한 이유
- ARC-AGI-2에서 최초로 50% 돌파 - ARC Prize Foundation이 공식적으로 검증한 54% 정확도
- 기존 SOTA 대비 절반의 비용 - 문제당 $30.57 vs Gemini 3 Deep Think의 $77.16
- 6명으로 구성된 팀이 Google DeepMind 출신 총 53년의 경력을 바탕으로 거대 AI 랩들을 능가
- 완전히 오픈소스화된 접근법과 프롬프트를 GitHub에 공개
참고로, 2025년 초 주요 AI 모델들은 ARC-AGI-2에서 5% 미만의 점수를 기록했다. 불과 몇 개월 만에 5% 미만에서 50% 이상으로 도약한 것은 근본적인 무언가가 바뀌었다는 신호다.
아키텍처 - 규모보다 재귀적 추론
핵심 혁신은 새로운 모델을 학습시키지 않는 메타 시스템이다. 대신 기존 LLM들을 반복적인 추론 루프를 통해 조율한다.
시스템은 후보 솔루션을 생성하고, 그것을 비판하고, 피드백을 분석한 뒤, LLM을 사용해 답을 개선한다. 그리고 이를 반복한다. 프롬프트는 단지 인터페이스일 뿐이고, 진짜 지능은 이 반복적 개선 프로세스에서 출현한다.
이는 표준적인 chain-of-thought 프롬프팅과 의도적으로 다른 접근이다. 한 번 질문하고 출력을 받아들이는 대신, Poetiq의 시스템은 각 답변을 구조화된 자기 비평을 통해 개선해야 할 초안으로 취급한다.
자기 감사 - 언제 멈출지 아는 능력
가장 인상적인 능력은 자기 감사(self-auditing) 메커니즘이다. 시스템은 충분한 정보를 수집했는지, 추론 프로세스를 언제 종료할지 스스로 판단한다.
이것은 단순한 엔지니어링 편의성이 아니다. 핵심적인 경제적 메커니즘이다. ARC 문제당 평균 2회 미만의 LLM 요청으로, 시스템은 정확도를 유지하면서 불필요한 연산을 최소화한다. 이것이 소규모 팀이 수조 달러 규모의 경쟁사들을 절반의 비용으로 능가한 방법이다.
이것이 증명하는 것
Tiny Recursive Model (TRM)과 RLM에 이어, Poetiq의 결과는 재귀적 추론 아키텍처가 AGI로 가는 실행 가능한 경로라는 가장 강력한 증거다.
교훈은 더 큰 모델이나 더 긴 컨텍스트 윈도우를 만드는 것이 아니다. 반복적으로 사고하는 시스템을 설계하는 것이다 - 구조화된 루프 안에서 생성하고, 평가하고, 개선하는 것. 추론 프로세스 자체가 제품이 될 때, 원시적인 모델 규모보다 아키텍처 설계가 더 중요해진다.
전체 구현, 프롬프트, 방법론은 GitHub에서 확인할 수 있다.
뉴스레터 구독하기
최신 프로젝트, 아티클, AI와 웹 개발 실험에 대한 소식을 받아보세요.