AIが初めて人間の推論に近づいた - PoetiqがARC-AGI-2で50%の壁を突破
Poetiqの再帰的メタシステムが、真の汎用知能を測定するベンチマークARC-AGI-2で初めて50%を超えた。6人のチームがGoogleの半分のコストで上回った理由を解説する。
PoetiqがARC-AGIベンチマークで歴史を作った。
ARC-AGIは、AIが真の汎用知能を持っているかを評価するために設計されたテストだ。学習データの暗記を求めるのではなく、完全に未知のパターン問題を提示し、システム自身が背後にあるルールを推論することを要求する。人間の平均正解率は約60%。これまで、AIシステムはその水準に遠く及ばなかった。
Poetiqの成果が重要な理由
- ARC-AGI-2で初めて50%を突破 - ARC Prize Foundationにより公式に54%の精度が認定された
- 前世代の最先端の半分のコスト - 1問あたり30.57ドル対Gemini 3 Deep Thinkの77.16ドル
- 6人のチーム がGoogle DeepMind出身者の通算53年の経験で、最大手のAIラボを上回った
- 完全オープンソース化 されたアプローチとプロンプトをGitHubで公開
文脈として、2025年初頭の主要AIモデルはARC-AGI-2で5%未満のスコアだった。数ヶ月で5%未満から50%超へのジャンプは、根本的な何かが変わったことを示している。
アーキテクチャ - 生のスケールより再帰的推論
核心となるイノベーションは、新しいモデルを訓練しないメタシステムだ。代わりに、既存のLLMを反復的な推論ループを通じてオーケストレーションする。
システムは候補となる解を生成し、それを批評し、フィードバックを分析し、LLMを使って答えを洗練させる。これを繰り返す。プロンプトは単なるインターフェースであり、真の知能はこの反復的な洗練プロセスから生まれる。
これは標準的なchain-of-thoughtプロンプティングからの意図的な脱却だ。一度尋ねて出力を受け入れるのではなく、Poetiqのシステムは各回答を構造化された自己批評を通じて改善すべきドラフトとして扱う。
セルフ監査 - いつ止めるべきかを知る
最も印象的な能力は、セルフ監査メカニズムだ。システムは十分な情報を収集したタイミングと、推論プロセスを終了すべきタイミングを自律的に判断する。
これは単なるエンジニアリング上の利便性ではない - 中核的な経済メカニズムだ。ARC問題あたり平均2回未満のLLMリクエストで済ませることで、システムは精度を維持しながら不要な計算を最小化する。これが、小規模なチームが数兆ドル規模の競合の半分のコストで優れた結果を達成できた理由だ。
これが証明すること
Tiny Recursive Model (TRM)やRLMに続き、Poetiqの成果は再帰的推論アーキテクチャがAGIへの実現可能な道筋であることを示す最強の証拠となった。
教訓は、より大きなモデルやより長いコンテキストウィンドウを構築することではない。反復的に思考するシステムを設計することだ - 構造化されたループの中で生成し、評価し、洗練する。推論プロセス自体が製品になるとき、生のモデル規模よりもアーキテクチャ設計の方が重要になる。
完全な実装、プロンプト、方法論はGitHubで公開されている。
ニュースレターに登録
最新のプロジェクト、記事、AIとWeb開発の実験に関する情報をお届けします。