2026年3月19日 1 分钟阅读 2026

2026年，真正有效的AI策略只有一个字：循环

我搭建了各种技能模块、配置了子代理和斜杠命令，结果一个通宵跑着的循环把所有这些设置都比了下去。

花了好几周时间搭架子：技能模块、子代理配置、斜杠命令、精心设计的提示词链路。然后有一天晚上，我让一个只有几行Bash的循环跑了整晚，早上醒来，它交出的结果比那套精密管道强得多。

2026年，从AI身上榨出最大价值的方式，不是搭更复杂的流水线，而是让一个简单的循环不停地转。

Ralph：一行Bash，靠失败驱动进化

Ralph的核心就是 while :; do cat PROMPT.md | claude-code ; done。代理完成任务准备退出时，Stop Hook拦截退出信号，把同一份提示词重新塞进去。每次迭代都是一个全新的上下文窗口，之前的工作只保存在git历史和文件系统里，对话本身始终从零开始。这直接绕开了代理循环的经典问题：上下文越长，表现越差。

每轮结束后，本次学到的内容写入AGENTS.md，下一轮的代理会自动读取这些注记，不会重蹈同样的覆辙。如果某个任务连续失败超过10次，系统会把它标记为”卡住”，自动拆解成更小的子任务重试。失败本身变成了输入数据，而不是终止信号。正如Huntley所说，“确定性的坏结果”可以直接喂给下一轮循环。

说一个实际遇到的问题：第一次跑Ralph时，大约每10轮就有3轮在重复同一个错误白烧token。累积学习机制要等我重新设计了提示词、明确规定了什么内容该写进AGENTS.md之后才真正开始发挥作用。工具本身没那么重要，关键在于围绕它设计的提示词结构。

Ralph 仓库

RLM：模型递归调用自身来推理

把一份很长的文档喂给大模型，模型在读到后半段时准确率会明显下降，这是大家都知道的痛点。RLM用一种完全不同的方式解决这个问题：它不把长文本直接塞进提示词，而是先把内容加载到Python REPL变量里。模型通过编写代码来切片、检索、按需读取这些变量，再带着最相关的片段递归调用自身。上下文窗口的规模没有变，变的是模型自己决定怎么在上下文里导航。

在OOLONG基准测试上，搭配RLM的GPT-5-mini答对的题目数量是单独使用GPT-5的两倍多。每一次递归调用的完整轨迹都以代码形式保留下来，可以精确追溯模型得出某个答案的推理路径。与摘要压缩或RAG不同，RLM是把特定信息片段委托给子模型调用，从结构上避免了信息损失。

RLM 仓库

autoresearch：睡一觉跑完100个实验

给代理一个 train.py，允许它自由修改，每次训练精确跑5分钟。val_bpb下降就提交，否则回滚重来，整晚循环。固定5分钟的时间预算让每个实验在完全相同的条件下运行，确保比较公平，这才是高质量迭代的基础。失败的实验随回滚消失，成功的实验作为commit累积下来。

Karpathy下一步的设想是像SETI@home那样做分布式研究。不过目前autoresearch只能跑在单机上，而且那些在5分钟内看不出显著差异的实验会直接被丢弃，并不适合所有类型的研究任务。

autoresearch 仓库

重复本身为什么有效

这三个工具背后有一个共同原理：测试时计算扩展（test-time compute scaling），即在推理阶段投入更多计算量来提升表现，而不需要让模型本身变大。OpenAI的o1验证了这条路。Ralph把它用在代码质量上，RLM用在长上下文理解上，autoresearch用在机器学习研究上。

需要的东西就三样：一个值得追的目标，一个有明确验证条件的循环，以及足够通宵运转的token预算。

你睡着的8小时，是别人跑完100次改进的窗口。100次不会全部成功，这很正常。积累的失败就是下一轮循环的燃料。

订阅通讯

获取关于我最新项目、文章以及 AI 和 Web 开发实验的更新。