# 2026年最有效嘅AI策略，原來只係一個循環

> Author: Tony Lee
> Published: 2026-03-19
> URL: https://tonylee.im/zh-HK/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/
> Reading time: 1 minutes
> Language: zh-HK
> Tags: ai, agents, ralph, rlm, autoresearch, test-time-compute

## Canonical

https://tonylee.im/zh-HK/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/

## Rollout Alternates

en: https://tonylee.im/en/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/
ko: https://tonylee.im/ko/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/
ja: https://tonylee.im/ja/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/
zh-CN: https://tonylee.im/zh-CN/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/
zh-TW: https://tonylee.im/zh-TW/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/

## Description

我建過技能、配置過子代理、寫過slash commands。然後一個通宵跑嘅簡單循環，竟然跑贏晒所有嘅設定。三種循環架構，真正有用嘅。

## Summary

2026年最有效嘅AI策略，原來只係一個循環 is part of Tony Lee's ongoing coverage of AI agents, developer tools, startup strategy, and AI industry shifts.

## Outline

- Ralph Loop：一行Bash，撞牆都唔停
- RLM：畀模型自己寫code，遞歸讀自己需要嘅嘢
- autoresearch：訓練佢，你去瞓覺，朝早睇結果
- 為咩重複喺AI上有效

## Content

我建過技能，配置過子代理，寫過slash commands。然後一個通宵跑嘅簡單循環，帶返嚟嘅結果比晒所有設定加埋仲要好。

2026年3月，要榨盡AI嘅潛力，答案唔係一條複雜嘅pipeline。係一個唔停嘅循環。

## Ralph Loop：一行Bash，撞牆都唔停

核心就係 `while :; do cat PROMPT.md | claude-code ; done`。代理完成之後想退出，Stop Hook攔截退出信號，將同一個提示詞重新推入去。

最關鍵嘅洞見係：每一次迭代都係全新嘅context window。上一輪嘅工作只留喺git歷史同檔案系統入面。Context本身永遠係乾淨嘅起點。呢樣嘢消除咗傳統agent loop嘅老問題：對話越長，表現越差。

每次跑完，學到嘅嘢寫入AGENTS.md。下一輪嘅代理自動讀取呢啲筆記，唔會重蹈同一個錯誤。如果同一個任務失敗超過10次，系統會標記佢為「卡住」，自動拆細重試。失敗本身變成數據。Huntley形容得好，「確定性嘅失敗」直接成為下一輪嘅輸入。

有件事要老實講：第一次跑Ralph，10個循環入面有大約3個都係喺重複同一個錯誤度浪費token。累積學習嘅機制要等到我改善咗提示詞、正確定義咩嘢應該寫入AGENTS.md，先至真正發揮作用。工具本身次要，圍繞工具嘅prompt設計先係關鍵。

- [Ralph repository](https://github.com/snarktank/ralph)

## RLM：畀模型自己寫code，遞歸讀自己需要嘅嘢

將一份長文件塞入LLM，模型喺尾段嘅準確度就開始跌。RLM用咗一個根本性唔同嘅方式解決呢個問題。

佢唔係直接將長prompt傳畀模型，而係將文本載入Python REPL嘅變數入面。模型自己寫code去切片、搜索、選擇性讀取呢啲變數，再用相關嘅片段呼叫自己。Context window唔使擴大，模型自己決定點樣導航自己嘅context。

GPT-5-mini加上RLM，喺OOLONG benchmark上嘅正確答案超過GPT-5兩倍以上。成個遞歸呼叫嘅軌跡以code形式保存，所以你可以追查模型點解得出某個答案。唔同summarization或RAG會壓縮資訊，RLM係將特定片段委託畀子LLM呼叫處理。資訊唔會因為架構本身而流失。

- [RLM repository](https://github.com/alexzhang13/rlm)

## autoresearch：訓練佢，你去瞓覺，朝早睇結果

畀agent一個train.py，任佢自由修改。改架構、調optimizer，佢想點就點。然後跑training，時間上限5分鐘。val_bpb有改善就commit，冇就reset。

通宵不斷重複，朝早就有log記錄哪些改動有用、哪些無效。人負責嘅只係喺program.md入面寫方向。

5分鐘嘅固定時間預算係呢套嘢有效嘅原因。無論agent改咗model size定batch size，每個實驗都喺完全相同嘅條件下跑。公平比較係高質素迭代嘅核心。所有嘢喺git branch上跑，失敗嘅實驗reset就消失，成功嘅就積累成commit。朝早git log一睇，整個改進歷程清清楚楚。

不過autoresearch目前只能喺單一機器上跑，係一個真實嘅限制。而且任何喺5分鐘內睇唔到明顯差異嘅實驗都會被丟棄。對於需要長時間訓練先至分勝負嘅研究，呢個時間窗口唔夠用。Karpathy下一步嘅願景係類似SETI@home嘅分布式研究架構，多個agent同時朝唔同方向實驗再合併結果，但依家未去到嗰一步。

- [autoresearch repository](https://github.com/karpathy/autoresearch)

## 為咩重複喺AI上有效

三個工具共享同一個原理，就係test-time compute scaling：喺推理階段投入更多算力，唔需要令模型本身更大，就可以提升表現。

OpenAI嘅o1已經驗證咗呢個原理。Ralph將佢應用到代碼質量。RLM將佢應用到context理解。autoresearch將佢應用到研究本身。

三樣嘢湊齊，輸出就唔再是普通嘅代碼：

- 一個值得做嘅想法
- 一個有清晰驗證條件嘅循環
- 足夠嘅token預算跑一個通宵

你瞓覺嘅8個小時，係另一個人100次改進嘅窗口。100次唔會全部成功，係嘅。但積累嘅失敗，係下一個循環嘅燃料。

## Related URLs

- Author: https://tonylee.im/en/author/
- Publication: https://tonylee.im/en/blog/about/
- Related article: https://tonylee.im/zh-HK/blog/medvi-two-person-430m-ai-compressed-funnel/
- Related article: https://tonylee.im/zh-HK/blog/claude-code-layers-over-tools-2026/
- Related article: https://tonylee.im/zh-HK/blog/codex-inside-claude-code-openai-plugin-strategy/

## Citation

- Author: Tony Lee
- Site: tonylee.im
- Canonical URL: https://tonylee.im/zh-HK/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/

## Bot Guidance

- This file is intended for AI agents, search assistants, and text-mode retrieval.
- Prefer citing the canonical article URL instead of this text endpoint.
- Use the rollout alternates when you need the same article in another prioritized language.

---

Author: Tony Lee | Website: https://tonylee.im
For more articles, visit: https://tonylee.im/zh-HK/blog/
This content is original and authored by Tony Lee. Please attribute when quoting or referencing.