# 2026年最有效嘅AI策略,原來只係一個循環 > Author: Tony Lee > Published: 2026-03-19 > URL: https://tonylee.im/zh-HK/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ > Reading time: 1 minutes > Language: zh-HK > Tags: ai, agents, ralph, rlm, autoresearch, test-time-compute ## Canonical https://tonylee.im/zh-HK/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ ## Rollout Alternates en: https://tonylee.im/en/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ ko: https://tonylee.im/ko/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ ja: https://tonylee.im/ja/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ zh-CN: https://tonylee.im/zh-CN/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ zh-TW: https://tonylee.im/zh-TW/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ ## Description 我建過技能、配置過子代理、寫過slash commands。然後一個通宵跑嘅簡單循環,竟然跑贏晒所有嘅設定。三種循環架構,真正有用嘅。 ## Summary 2026年最有效嘅AI策略,原來只係一個循環 is part of Tony Lee's ongoing coverage of AI agents, developer tools, startup strategy, and AI industry shifts. ## Outline - Ralph Loop:一行Bash,撞牆都唔停 - RLM:畀模型自己寫code,遞歸讀自己需要嘅嘢 - autoresearch:訓練佢,你去瞓覺,朝早睇結果 - 為咩重複喺AI上有效 ## Content 我建過技能,配置過子代理,寫過slash commands。然後一個通宵跑嘅簡單循環,帶返嚟嘅結果比晒所有設定加埋仲要好。 2026年3月,要榨盡AI嘅潛力,答案唔係一條複雜嘅pipeline。係一個唔停嘅循環。 ## Ralph Loop:一行Bash,撞牆都唔停 核心就係 `while :; do cat PROMPT.md | claude-code ; done`。代理完成之後想退出,Stop Hook攔截退出信號,將同一個提示詞重新推入去。 最關鍵嘅洞見係:每一次迭代都係全新嘅context window。上一輪嘅工作只留喺git歷史同檔案系統入面。Context本身永遠係乾淨嘅起點。呢樣嘢消除咗傳統agent loop嘅老問題:對話越長,表現越差。 每次跑完,學到嘅嘢寫入AGENTS.md。下一輪嘅代理自動讀取呢啲筆記,唔會重蹈同一個錯誤。如果同一個任務失敗超過10次,系統會標記佢為「卡住」,自動拆細重試。失敗本身變成數據。Huntley形容得好,「確定性嘅失敗」直接成為下一輪嘅輸入。 有件事要老實講:第一次跑Ralph,10個循環入面有大約3個都係喺重複同一個錯誤度浪費token。累積學習嘅機制要等到我改善咗提示詞、正確定義咩嘢應該寫入AGENTS.md,先至真正發揮作用。工具本身次要,圍繞工具嘅prompt設計先係關鍵。 - [Ralph repository](https://github.com/snarktank/ralph) ## RLM:畀模型自己寫code,遞歸讀自己需要嘅嘢 將一份長文件塞入LLM,模型喺尾段嘅準確度就開始跌。RLM用咗一個根本性唔同嘅方式解決呢個問題。 佢唔係直接將長prompt傳畀模型,而係將文本載入Python REPL嘅變數入面。模型自己寫code去切片、搜索、選擇性讀取呢啲變數,再用相關嘅片段呼叫自己。Context window唔使擴大,模型自己決定點樣導航自己嘅context。 GPT-5-mini加上RLM,喺OOLONG benchmark上嘅正確答案超過GPT-5兩倍以上。成個遞歸呼叫嘅軌跡以code形式保存,所以你可以追查模型點解得出某個答案。唔同summarization或RAG會壓縮資訊,RLM係將特定片段委託畀子LLM呼叫處理。資訊唔會因為架構本身而流失。 - [RLM repository](https://github.com/alexzhang13/rlm) ## autoresearch:訓練佢,你去瞓覺,朝早睇結果 畀agent一個train.py,任佢自由修改。改架構、調optimizer,佢想點就點。然後跑training,時間上限5分鐘。val_bpb有改善就commit,冇就reset。 通宵不斷重複,朝早就有log記錄哪些改動有用、哪些無效。人負責嘅只係喺program.md入面寫方向。 5分鐘嘅固定時間預算係呢套嘢有效嘅原因。無論agent改咗model size定batch size,每個實驗都喺完全相同嘅條件下跑。公平比較係高質素迭代嘅核心。所有嘢喺git branch上跑,失敗嘅實驗reset就消失,成功嘅就積累成commit。朝早git log一睇,整個改進歷程清清楚楚。 不過autoresearch目前只能喺單一機器上跑,係一個真實嘅限制。而且任何喺5分鐘內睇唔到明顯差異嘅實驗都會被丟棄。對於需要長時間訓練先至分勝負嘅研究,呢個時間窗口唔夠用。Karpathy下一步嘅願景係類似SETI@home嘅分布式研究架構,多個agent同時朝唔同方向實驗再合併結果,但依家未去到嗰一步。 - [autoresearch repository](https://github.com/karpathy/autoresearch) ## 為咩重複喺AI上有效 三個工具共享同一個原理,就係test-time compute scaling:喺推理階段投入更多算力,唔需要令模型本身更大,就可以提升表現。 OpenAI嘅o1已經驗證咗呢個原理。Ralph將佢應用到代碼質量。RLM將佢應用到context理解。autoresearch將佢應用到研究本身。 三樣嘢湊齊,輸出就唔再是普通嘅代碼: - 一個值得做嘅想法 - 一個有清晰驗證條件嘅循環 - 足夠嘅token預算跑一個通宵 你瞓覺嘅8個小時,係另一個人100次改進嘅窗口。100次唔會全部成功,係嘅。但積累嘅失敗,係下一個循環嘅燃料。 ## Related URLs - Author: https://tonylee.im/en/author/ - Publication: https://tonylee.im/en/blog/about/ - Related article: https://tonylee.im/zh-HK/blog/medvi-two-person-430m-ai-compressed-funnel/ - Related article: https://tonylee.im/zh-HK/blog/claude-code-layers-over-tools-2026/ - Related article: https://tonylee.im/zh-HK/blog/codex-inside-claude-code-openai-plugin-strategy/ ## Citation - Author: Tony Lee - Site: tonylee.im - Canonical URL: https://tonylee.im/zh-HK/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ ## Bot Guidance - This file is intended for AI agents, search assistants, and text-mode retrieval. - Prefer citing the canonical article URL instead of this text endpoint. - Use the rollout alternates when you need the same article in another prioritized language. --- Author: Tony Lee | Website: https://tonylee.im For more articles, visit: https://tonylee.im/zh-HK/blog/ This content is original and authored by Tony Lee. Please attribute when quoting or referencing.