# 2026年，真正有效的AI策略只有一个字：循环

> Author: Tony Lee
> Published: 2026-03-19
> URL: https://tonylee.im/zh-CN/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/
> Reading time: 1 minutes
> Language: zh-CN
> Tags: ai, agents, ralph, rlm, autoresearch, test-time-compute

## Canonical

https://tonylee.im/zh-CN/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/

## Rollout Alternates

en: https://tonylee.im/en/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/
ko: https://tonylee.im/ko/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/
ja: https://tonylee.im/ja/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/
zh-CN: https://tonylee.im/zh-CN/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/
zh-TW: https://tonylee.im/zh-TW/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/

## Description

我搭建了各种技能模块、配置了子代理和斜杠命令，结果一个通宵跑着的循环把所有这些设置都比了下去。

## Summary

2026年，真正有效的AI策略只有一个字：循环 is part of Tony Lee's ongoing coverage of AI agents, developer tools, startup strategy, and AI industry shifts.

## Outline

- Ralph：一行Bash，靠失败驱动进化
- RLM：模型递归调用自身来推理
- autoresearch：睡一觉跑完100个实验
- 重复本身为什么有效

## Content

花了好几周时间搭架子：技能模块、子代理配置、斜杠命令、精心设计的提示词链路。然后有一天晚上，我让一个只有几行Bash的循环跑了整晚，早上醒来，它交出的结果比那套精密管道强得多。

2026年，从AI身上榨出最大价值的方式，不是搭更复杂的流水线，而是让一个简单的循环不停地转。

## Ralph：一行Bash，靠失败驱动进化

Ralph的核心就是 `while :; do cat PROMPT.md | claude-code ; done`。代理完成任务准备退出时，Stop Hook拦截退出信号，把同一份提示词重新塞进去。每次迭代都是一个全新的上下文窗口，之前的工作只保存在git历史和文件系统里，对话本身始终从零开始。这直接绕开了代理循环的经典问题：上下文越长，表现越差。

每轮结束后，本次学到的内容写入AGENTS.md，下一轮的代理会自动读取这些注记，不会重蹈同样的覆辙。如果某个任务连续失败超过10次，系统会把它标记为"卡住"，自动拆解成更小的子任务重试。失败本身变成了输入数据，而不是终止信号。正如Huntley所说，"确定性的坏结果"可以直接喂给下一轮循环。

说一个实际遇到的问题：第一次跑Ralph时，大约每10轮就有3轮在重复同一个错误白烧token。累积学习机制要等我重新设计了提示词、明确规定了什么内容该写进AGENTS.md之后才真正开始发挥作用。工具本身没那么重要，关键在于围绕它设计的提示词结构。

- [Ralph 仓库](https://github.com/snarktank/ralph)

## RLM：模型递归调用自身来推理

把一份很长的文档喂给大模型，模型在读到后半段时准确率会明显下降，这是大家都知道的痛点。RLM用一种完全不同的方式解决这个问题：它不把长文本直接塞进提示词，而是先把内容加载到Python REPL变量里。模型通过编写代码来切片、检索、按需读取这些变量，再带着最相关的片段递归调用自身。上下文窗口的规模没有变，变的是模型自己决定怎么在上下文里导航。

在OOLONG基准测试上，搭配RLM的GPT-5-mini答对的题目数量是单独使用GPT-5的两倍多。每一次递归调用的完整轨迹都以代码形式保留下来，可以精确追溯模型得出某个答案的推理路径。与摘要压缩或RAG不同，RLM是把特定信息片段委托给子模型调用，从结构上避免了信息损失。

- [RLM 仓库](https://github.com/alexzhang13/rlm)

## autoresearch：睡一觉跑完100个实验

给代理一个 train.py，允许它自由修改，每次训练精确跑5分钟。val_bpb下降就提交，否则回滚重来，整晚循环。固定5分钟的时间预算让每个实验在完全相同的条件下运行，确保比较公平，这才是高质量迭代的基础。失败的实验随回滚消失，成功的实验作为commit累积下来。

Karpathy下一步的设想是像SETI@home那样做分布式研究。不过目前autoresearch只能跑在单机上，而且那些在5分钟内看不出显著差异的实验会直接被丢弃，并不适合所有类型的研究任务。

- [autoresearch 仓库](https://github.com/karpathy/autoresearch)

## 重复本身为什么有效

这三个工具背后有一个共同原理：测试时计算扩展（test-time compute scaling），即在推理阶段投入更多计算量来提升表现，而不需要让模型本身变大。OpenAI的o1验证了这条路。Ralph把它用在代码质量上，RLM用在长上下文理解上，autoresearch用在机器学习研究上。

需要的东西就三样：一个值得追的目标，一个有明确验证条件的循环，以及足够通宵运转的token预算。

你睡着的8小时，是别人跑完100次改进的窗口。100次不会全部成功，这很正常。积累的失败就是下一轮循环的燃料。

## Related URLs

- Author: https://tonylee.im/zh-CN/author/
- Publication: https://tonylee.im/zh-CN/blog/about/
- Related article: https://tonylee.im/zh-CN/blog/medvi-two-person-430m-ai-compressed-funnel/
- Related article: https://tonylee.im/zh-CN/blog/claude-code-layers-over-tools-2026/
- Related article: https://tonylee.im/zh-CN/blog/codex-inside-claude-code-openai-plugin-strategy/

## Citation

- Author: Tony Lee
- Site: tonylee.im
- Canonical URL: https://tonylee.im/zh-CN/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/

## Bot Guidance

- This file is intended for AI agents, search assistants, and text-mode retrieval.
- Prefer citing the canonical article URL instead of this text endpoint.
- Use the rollout alternates when you need the same article in another prioritized language.

---

Author: Tony Lee | Website: https://tonylee.im
For more articles, visit: https://tonylee.im/zh-CN/blog/
This content is original and authored by Tony Lee. Please attribute when quoting or referencing.