# AI 首次接近人類推理能力 - Poetiq 突破 ARC-AGI-2 五成關口 > Author: Tony Lee > Published: 2026-02-08 > URL: https://tonylee.im/zh-HK/blog/poetiq-arc-agi-2-first-to-break-50-percent/ > Reading time: 1 minutes > Language: zh-HK > Tags: ai, agi, arc-agi, reasoning, recursive-ai, research ## Canonical https://tonylee.im/zh-HK/blog/poetiq-arc-agi-2-first-to-break-50-percent/ ## Rollout Alternates en: https://tonylee.im/en/blog/poetiq-arc-agi-2-first-to-break-50-percent/ ko: https://tonylee.im/ko/blog/poetiq-arc-agi-2-first-to-break-50-percent/ ja: https://tonylee.im/ja/blog/poetiq-arc-agi-2-first-to-break-50-percent/ zh-CN: https://tonylee.im/zh-CN/blog/poetiq-arc-agi-2-first-to-break-50-percent/ zh-TW: https://tonylee.im/zh-TW/blog/poetiq-arc-agi-2-first-to-break-50-percent/ ## Description Poetiq 的遞歸元系統成為首個在 ARC-AGI-2 上突破 50% 的系統,這是專為測試真正通用智能而設計的基準測試。一個 6 人團隊如何以一半成本跑贏 Google。 ## Summary AI 首次接近人類推理能力 - Poetiq 突破 ARC-AGI-2 五成關口 is part of Tony Lee's ongoing coverage of AI agents, developer tools, startup strategy, and AI industry shifts. ## Outline - 為何 Poetiq 的成績重要 - 架構 - 遞歸推理勝於暴力規模 - 自我審核 - 知道何時停止 - 這證明了甚麼 ## Content Poetiq 剛剛在 ARC-AGI 基準測試上創造了歷史。 ARC-AGI 是用來評估 AI 是否具備真正通用智能的測試。它不會要求模型背誦訓練數據,而是呈現全新的模式問題,要求系統自行推斷背後的規則。人類平均準確率約為 60%。直到現在,AI 系統都遠遠未能達標。 ## 為何 Poetiq 的成績重要 - **首個突破 ARC-AGI-2 五成關口** - 經 ARC Prize Foundation 官方認證達 54% 準確率 - **成本僅為前紀錄保持者的一半** - 每題 $30.57 美元對比 Gemini 3 Deep Think 的 $77.16 美元 - **6 人團隊**,成員來自 Google DeepMind,合共 53 年經驗,表現超越最大型 AI 實驗室 - **完全開源**,方法和提示詞可在 [GitHub](https://github.com/poetiq-ai/poetiq-arc-agi-solver) 查閱 背景資料:2025 年初,領先的 AI 模型在 ARC-AGI-2 上的得分低於 5%。從不足 5% 躍升至超過 50%,僅需數月時間,標誌著某些根本性的轉變。 ## 架構 - 遞歸推理勝於暴力規模 核心創新在於一個不需訓練新模型的元系統。相反,它透過迭代推理循環來協調現有的 LLM。 系統生成候選解決方案,批判它,分析反饋,然後利用 LLM 改進答案。重複這個過程。提示詞只是介面 - 真正的智能源自這個迭代改進過程。 這是刻意偏離標準的思維鏈提示方法。Poetiq 的系統不會問一次就接受輸出,而是將每個答案視為草稿,透過結構化的自我批判來改進。 ## 自我審核 - 知道何時停止 最令人印象深刻的能力是自我審核機制。系統能自主判斷何時已收集足夠資訊,何時應終止推理過程。 這不只是工程上的便利 - 這是核心的經濟機制。平均每道 ARC 問題少於兩次 LLM 請求,系統在保持準確度的同時,最大程度減少不必要的運算。這正是一個小團隊如何以一半成本,達成優於萬億美元競爭對手的成績。 ## 這證明了甚麼 繼 Tiny Recursive Model (TRM) 和 RLM 之後,Poetiq 的成績是迄今最有力的證據,證明遞歸推理架構代表了通往 AGI 的可行路徑。 這裡的教訓不在於建構更大的模型或更長的上下文視窗,而在於設計能迭代思考的系統 - 在結構化循環中生成、評估和改進。當推理過程本身成為產品時,原始模型規模就不如架構設計重要。 完整實作、提示詞和方法論可在 [GitHub](https://github.com/poetiq-ai/poetiq-arc-agi-solver) 查閱。 ## Related URLs - Author: https://tonylee.im/en/author/ - Publication: https://tonylee.im/en/blog/about/ - Related article: https://tonylee.im/zh-HK/blog/medvi-two-person-430m-ai-compressed-funnel/ - Related article: https://tonylee.im/zh-HK/blog/claude-code-layers-over-tools-2026/ - Related article: https://tonylee.im/zh-HK/blog/codex-inside-claude-code-openai-plugin-strategy/ ## Citation - Author: Tony Lee - Site: tonylee.im - Canonical URL: https://tonylee.im/zh-HK/blog/poetiq-arc-agi-2-first-to-break-50-percent/ ## Bot Guidance - This file is intended for AI agents, search assistants, and text-mode retrieval. - Prefer citing the canonical article URL instead of this text endpoint. - Use the rollout alternates when you need the same article in another prioritized language. --- Author: Tony Lee | Website: https://tonylee.im For more articles, visit: https://tonylee.im/zh-HK/blog/ This content is original and authored by Tony Lee. Please attribute when quoting or referencing.