# AIが初めて人間の推論に近づいた - PoetiqがARC-AGI-2で50%の壁を突破

> Author: Tony Lee
> Published: 2026-02-08
> URL: https://tonylee.im/ja/blog/poetiq-arc-agi-2-first-to-break-50-percent/
> Reading time: 1 minutes
> Language: ja
> Tags: ai, agi, arc-agi, reasoning, recursive-ai, research

## Canonical

https://tonylee.im/ja/blog/poetiq-arc-agi-2-first-to-break-50-percent/

## Rollout Alternates

en: https://tonylee.im/en/blog/poetiq-arc-agi-2-first-to-break-50-percent/
ko: https://tonylee.im/ko/blog/poetiq-arc-agi-2-first-to-break-50-percent/
ja: https://tonylee.im/ja/blog/poetiq-arc-agi-2-first-to-break-50-percent/
zh-CN: https://tonylee.im/zh-CN/blog/poetiq-arc-agi-2-first-to-break-50-percent/
zh-TW: https://tonylee.im/zh-TW/blog/poetiq-arc-agi-2-first-to-break-50-percent/

## Description

Poetiqの再帰的メタシステムが、真の汎用知能を測定するベンチマークARC-AGI-2で初めて50%を超えた。6人のチームがGoogleの半分のコストで上回った理由を解説する。

## Summary

AIが初めて人間の推論に近づいた - PoetiqがARC-AGI-2で50%の壁を突破 is part of Tony Lee's ongoing coverage of AI agents, developer tools, startup strategy, and AI industry shifts.

## Outline

- Poetiqの成果が重要な理由
- アーキテクチャ - 生のスケールより再帰的推論
- セルフ監査 - いつ止めるべきかを知る
- これが証明すること

## Content

PoetiqがARC-AGIベンチマークで歴史を作った。

ARC-AGIは、AIが真の汎用知能を持っているかを評価するために設計されたテストだ。学習データの暗記を求めるのではなく、完全に未知のパターン問題を提示し、システム自身が背後にあるルールを推論することを要求する。人間の平均正解率は約60%。これまで、AIシステムはその水準に遠く及ばなかった。

## Poetiqの成果が重要な理由

- **ARC-AGI-2で初めて50%を突破** - ARC Prize Foundationにより公式に54%の精度が認定された
- **前世代の最先端の半分のコスト** - 1問あたり30.57ドル対Gemini 3 Deep Thinkの77.16ドル
- **6人のチーム** がGoogle DeepMind出身者の通算53年の経験で、最大手のAIラボを上回った
- **完全オープンソース化** されたアプローチとプロンプトを[GitHub](https://github.com/poetiq-ai/poetiq-arc-agi-solver)で公開

文脈として、2025年初頭の主要AIモデルはARC-AGI-2で5%未満のスコアだった。数ヶ月で5%未満から50%超へのジャンプは、根本的な何かが変わったことを示している。

## アーキテクチャ - 生のスケールより再帰的推論

核心となるイノベーションは、新しいモデルを訓練しないメタシステムだ。代わりに、既存のLLMを反復的な推論ループを通じてオーケストレーションする。

システムは候補となる解を生成し、それを批評し、フィードバックを分析し、LLMを使って答えを洗練させる。これを繰り返す。プロンプトは単なるインターフェースであり、真の知能はこの反復的な洗練プロセスから生まれる。

これは標準的なchain-of-thoughtプロンプティングからの意図的な脱却だ。一度尋ねて出力を受け入れるのではなく、Poetiqのシステムは各回答を構造化された自己批評を通じて改善すべきドラフトとして扱う。

## セルフ監査 - いつ止めるべきかを知る

最も印象的な能力は、セルフ監査メカニズムだ。システムは十分な情報を収集したタイミングと、推論プロセスを終了すべきタイミングを自律的に判断する。

これは単なるエンジニアリング上の利便性ではない - 中核的な経済メカニズムだ。ARC問題あたり平均2回未満のLLMリクエストで済ませることで、システムは精度を維持しながら不要な計算を最小化する。これが、小規模なチームが数兆ドル規模の競合の半分のコストで優れた結果を達成できた理由だ。

## これが証明すること

Tiny Recursive Model (TRM)やRLMに続き、Poetiqの成果は再帰的推論アーキテクチャがAGIへの実現可能な道筋であることを示す最強の証拠となった。

教訓は、より大きなモデルやより長いコンテキストウィンドウを構築することではない。反復的に思考するシステムを設計することだ - 構造化されたループの中で生成し、評価し、洗練する。推論プロセス自体が製品になるとき、生のモデル規模よりもアーキテクチャ設計の方が重要になる。

完全な実装、プロンプト、方法論は[GitHub](https://github.com/poetiq-ai/poetiq-arc-agi-solver)で公開されている。

## Related URLs

- Author: https://tonylee.im/ja/author/
- Publication: https://tonylee.im/ja/blog/about/
- Related article: https://tonylee.im/ja/blog/medvi-two-person-430m-ai-compressed-funnel/
- Related article: https://tonylee.im/ja/blog/claude-code-layers-over-tools-2026/
- Related article: https://tonylee.im/ja/blog/codex-inside-claude-code-openai-plugin-strategy/

## Citation

- Author: Tony Lee
- Site: tonylee.im
- Canonical URL: https://tonylee.im/ja/blog/poetiq-arc-agi-2-first-to-break-50-percent/

## Bot Guidance

- This file is intended for AI agents, search assistants, and text-mode retrieval.
- Prefer citing the canonical article URL instead of this text endpoint.
- Use the rollout alternates when you need the same article in another prioritized language.

---

Author: Tony Lee | Website: https://tonylee.im
For more articles, visit: https://tonylee.im/ja/blog/
This content is original and authored by Tony Lee. Please attribute when quoting or referencing.