# 2026年,真正有效的AI策略只有一个字:循环 > Author: Tony Lee > Published: 2026-03-19 > URL: https://tonylee.im/zh-CN/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ > Reading time: 1 minutes > Language: zh-CN > Tags: ai, agents, ralph, rlm, autoresearch, test-time-compute ## Canonical https://tonylee.im/zh-CN/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ ## Rollout Alternates en: https://tonylee.im/en/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ ko: https://tonylee.im/ko/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ ja: https://tonylee.im/ja/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ zh-CN: https://tonylee.im/zh-CN/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ zh-TW: https://tonylee.im/zh-TW/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ ## Description 我搭建了各种技能模块、配置了子代理和斜杠命令,结果一个通宵跑着的循环把所有这些设置都比了下去。 ## Summary 2026年,真正有效的AI策略只有一个字:循环 is part of Tony Lee's ongoing coverage of AI agents, developer tools, startup strategy, and AI industry shifts. ## Outline - Ralph:一行Bash,靠失败驱动进化 - RLM:模型递归调用自身来推理 - autoresearch:睡一觉跑完100个实验 - 重复本身为什么有效 ## Content 花了好几周时间搭架子:技能模块、子代理配置、斜杠命令、精心设计的提示词链路。然后有一天晚上,我让一个只有几行Bash的循环跑了整晚,早上醒来,它交出的结果比那套精密管道强得多。 2026年,从AI身上榨出最大价值的方式,不是搭更复杂的流水线,而是让一个简单的循环不停地转。 ## Ralph:一行Bash,靠失败驱动进化 Ralph的核心就是 `while :; do cat PROMPT.md | claude-code ; done`。代理完成任务准备退出时,Stop Hook拦截退出信号,把同一份提示词重新塞进去。每次迭代都是一个全新的上下文窗口,之前的工作只保存在git历史和文件系统里,对话本身始终从零开始。这直接绕开了代理循环的经典问题:上下文越长,表现越差。 每轮结束后,本次学到的内容写入AGENTS.md,下一轮的代理会自动读取这些注记,不会重蹈同样的覆辙。如果某个任务连续失败超过10次,系统会把它标记为"卡住",自动拆解成更小的子任务重试。失败本身变成了输入数据,而不是终止信号。正如Huntley所说,"确定性的坏结果"可以直接喂给下一轮循环。 说一个实际遇到的问题:第一次跑Ralph时,大约每10轮就有3轮在重复同一个错误白烧token。累积学习机制要等我重新设计了提示词、明确规定了什么内容该写进AGENTS.md之后才真正开始发挥作用。工具本身没那么重要,关键在于围绕它设计的提示词结构。 - [Ralph 仓库](https://github.com/snarktank/ralph) ## RLM:模型递归调用自身来推理 把一份很长的文档喂给大模型,模型在读到后半段时准确率会明显下降,这是大家都知道的痛点。RLM用一种完全不同的方式解决这个问题:它不把长文本直接塞进提示词,而是先把内容加载到Python REPL变量里。模型通过编写代码来切片、检索、按需读取这些变量,再带着最相关的片段递归调用自身。上下文窗口的规模没有变,变的是模型自己决定怎么在上下文里导航。 在OOLONG基准测试上,搭配RLM的GPT-5-mini答对的题目数量是单独使用GPT-5的两倍多。每一次递归调用的完整轨迹都以代码形式保留下来,可以精确追溯模型得出某个答案的推理路径。与摘要压缩或RAG不同,RLM是把特定信息片段委托给子模型调用,从结构上避免了信息损失。 - [RLM 仓库](https://github.com/alexzhang13/rlm) ## autoresearch:睡一觉跑完100个实验 给代理一个 train.py,允许它自由修改,每次训练精确跑5分钟。val_bpb下降就提交,否则回滚重来,整晚循环。固定5分钟的时间预算让每个实验在完全相同的条件下运行,确保比较公平,这才是高质量迭代的基础。失败的实验随回滚消失,成功的实验作为commit累积下来。 Karpathy下一步的设想是像SETI@home那样做分布式研究。不过目前autoresearch只能跑在单机上,而且那些在5分钟内看不出显著差异的实验会直接被丢弃,并不适合所有类型的研究任务。 - [autoresearch 仓库](https://github.com/karpathy/autoresearch) ## 重复本身为什么有效 这三个工具背后有一个共同原理:测试时计算扩展(test-time compute scaling),即在推理阶段投入更多计算量来提升表现,而不需要让模型本身变大。OpenAI的o1验证了这条路。Ralph把它用在代码质量上,RLM用在长上下文理解上,autoresearch用在机器学习研究上。 需要的东西就三样:一个值得追的目标,一个有明确验证条件的循环,以及足够通宵运转的token预算。 你睡着的8小时,是别人跑完100次改进的窗口。100次不会全部成功,这很正常。积累的失败就是下一轮循环的燃料。 ## Related URLs - Author: https://tonylee.im/zh-CN/author/ - Publication: https://tonylee.im/zh-CN/blog/about/ - Related article: https://tonylee.im/zh-CN/blog/medvi-two-person-430m-ai-compressed-funnel/ - Related article: https://tonylee.im/zh-CN/blog/claude-code-layers-over-tools-2026/ - Related article: https://tonylee.im/zh-CN/blog/codex-inside-claude-code-openai-plugin-strategy/ ## Citation - Author: Tony Lee - Site: tonylee.im - Canonical URL: https://tonylee.im/zh-CN/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ ## Bot Guidance - This file is intended for AI agents, search assistants, and text-mode retrieval. - Prefer citing the canonical article URL instead of this text endpoint. - Use the rollout alternates when you need the same article in another prioritized language. --- Author: Tony Lee | Website: https://tonylee.im For more articles, visit: https://tonylee.im/zh-CN/blog/ This content is original and authored by Tony Lee. Please attribute when quoting or referencing.