AI 首次接近人类推理水平 - Poetiq 突破 ARC-AGI-2 50% 大关
Poetiq 的递归元系统成为首个在 ARC-AGI-2 上突破 50% 的 AI,这是专为测试真正通用智能设计的基准测试。看一个 6 人团队如何以一半成本击败 Google。
Poetiq 刚刚在 ARC-AGI 基准测试上创造了历史。
ARC-AGI 是专门用来评估 AI 是否具备真正通用智能的测试。它不要求模型复述训练数据,而是呈现全新的模式问题,要求系统自主推断底层规律。人类在这项测试中的平均准确率约为 60%。而直到现在,AI 系统的表现都远远落后于这个水平。
为什么 Poetiq 的结果如此重要
- 首个突破 ARC-AGI-2 50% 大关 - 经 ARC Prize Foundation 官方验证,准确率达 54%
- 成本仅为前沿水平的一半 - 每题成本 $30.57,而 Gemini 3 Deep Think 需要 $77.16
- 6 人团队 - 来自 Google DeepMind 的团队成员共有 53 年从业经验,击败了最大的 AI 实验室
- 完全开源 - 方法和提示词已在 GitHub 公开
作为对比,2025 年初,主流 AI 模型在 ARC-AGI-2 上的得分还不到 5%。几个月内从不到 5% 跃升至超过 50%,意味着某些根本性的东西发生了改变。
架构设计 - 递归推理胜过暴力扩展
核心创新是一个不训练新模型的元系统。它通过迭代推理循环来编排现有的 LLM。
系统生成候选解决方案,对其进行批判,分析反馈,然后用 LLM 改进答案。重复这个过程。提示词只是接口 - 真正的智能来自这种迭代精炼过程。
这是对标准链式思考提示的刻意背离。Poetiq 的系统不是问一次就接受输出,而是把每个答案视为待改进的草稿,通过结构化的自我批判来完善。
自我审计 - 知道何时停止
最令人印象深刻的能力是自我审计机制。系统能够自主判断何时已收集到足够信息,以及何时终止推理过程。
这不仅仅是工程上的便利 - 它是核心经济机制。通过平均每个 ARC 问题少于两次 LLM 请求,系统在保持准确性的同时最小化不必要的计算。这就是一个小团队如何以万亿美元竞争对手一半的成本实现更优结果的原因。
这证明了什么
继 Tiny Recursive Model (TRM) 和 RLM 之后,Poetiq 的结果是迄今为止最有力的证据,表明递归推理架构代表了通向 AGI 的可行路径。
教训不在于构建更大的模型或更长的上下文窗口,而在于设计能够迭代思考的系统 - 在结构化循环中生成、评估和精炼。当推理过程本身成为产品时,原始模型规模的重要性不如架构设计。
完整的实现、提示词和方法论已在 GitHub 公开。
订阅通讯
获取关于我最新项目、文章以及 AI 和 Web 开发实验的更新。