目录
1 分钟阅读 2026

2026年,真正有效的AI策略只有一个字:循环

我搭建了各种技能模块、配置了子代理和斜杠命令,结果一个通宵跑着的循环把所有这些设置都比了下去。

花了好几周时间搭架子:技能模块、子代理配置、斜杠命令、精心设计的提示词链路。然后有一天晚上,我让一个只有几行Bash的循环跑了整晚,早上醒来,它交出的结果比那套精密管道强得多。

2026年,从AI身上榨出最大价值的方式,不是搭更复杂的流水线,而是让一个简单的循环不停地转。

Ralph:一行Bash,靠失败驱动进化

Ralph的核心就是 while :; do cat PROMPT.md | claude-code ; done。代理完成任务准备退出时,Stop Hook拦截退出信号,把同一份提示词重新塞进去。每次迭代都是一个全新的上下文窗口,之前的工作只保存在git历史和文件系统里,对话本身始终从零开始。这直接绕开了代理循环的经典问题:上下文越长,表现越差。

每轮结束后,本次学到的内容写入AGENTS.md,下一轮的代理会自动读取这些注记,不会重蹈同样的覆辙。如果某个任务连续失败超过10次,系统会把它标记为”卡住”,自动拆解成更小的子任务重试。失败本身变成了输入数据,而不是终止信号。正如Huntley所说,“确定性的坏结果”可以直接喂给下一轮循环。

说一个实际遇到的问题:第一次跑Ralph时,大约每10轮就有3轮在重复同一个错误白烧token。累积学习机制要等我重新设计了提示词、明确规定了什么内容该写进AGENTS.md之后才真正开始发挥作用。工具本身没那么重要,关键在于围绕它设计的提示词结构。

RLM:模型递归调用自身来推理

把一份很长的文档喂给大模型,模型在读到后半段时准确率会明显下降,这是大家都知道的痛点。RLM用一种完全不同的方式解决这个问题:它不把长文本直接塞进提示词,而是先把内容加载到Python REPL变量里。模型通过编写代码来切片、检索、按需读取这些变量,再带着最相关的片段递归调用自身。上下文窗口的规模没有变,变的是模型自己决定怎么在上下文里导航。

在OOLONG基准测试上,搭配RLM的GPT-5-mini答对的题目数量是单独使用GPT-5的两倍多。每一次递归调用的完整轨迹都以代码形式保留下来,可以精确追溯模型得出某个答案的推理路径。与摘要压缩或RAG不同,RLM是把特定信息片段委托给子模型调用,从结构上避免了信息损失。

autoresearch:睡一觉跑完100个实验

给代理一个 train.py,允许它自由修改,每次训练精确跑5分钟。val_bpb下降就提交,否则回滚重来,整晚循环。固定5分钟的时间预算让每个实验在完全相同的条件下运行,确保比较公平,这才是高质量迭代的基础。失败的实验随回滚消失,成功的实验作为commit累积下来。

Karpathy下一步的设想是像SETI@home那样做分布式研究。不过目前autoresearch只能跑在单机上,而且那些在5分钟内看不出显著差异的实验会直接被丢弃,并不适合所有类型的研究任务。

重复本身为什么有效

这三个工具背后有一个共同原理:测试时计算扩展(test-time compute scaling),即在推理阶段投入更多计算量来提升表现,而不需要让模型本身变大。OpenAI的o1验证了这条路。Ralph把它用在代码质量上,RLM用在长上下文理解上,autoresearch用在机器学习研究上。

需要的东西就三样:一个值得追的目标,一个有明确验证条件的循环,以及足够通宵运转的token预算。

你睡着的8小时,是别人跑完100次改进的窗口。100次不会全部成功,这很正常。积累的失败就是下一轮循环的燃料。

订阅通讯

获取关于我最新项目、文章以及 AI 和 Web 开发实验的更新。