# 2026 年最有效的 AI 策略,就是讓它不停重複 > Author: Tony Lee > Published: 2026-03-19 > URL: https://tonylee.im/zh-TW/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ > Reading time: 1 minutes > Language: zh-TW > Tags: ai, agents, ralph, rlm, autoresearch, test-time-compute ## Canonical https://tonylee.im/zh-TW/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ ## Rollout Alternates en: https://tonylee.im/en/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ ko: https://tonylee.im/ko/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ ja: https://tonylee.im/ja/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ zh-CN: https://tonylee.im/zh-CN/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ zh-TW: https://tonylee.im/zh-TW/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ ## Description 我建了技能、設定了子智能體和指令集。然後一個整晚跑的簡單迴圈,成果遠超過所有複雜設定。三種真正有效的迴圈架構。 ## Summary 2026 年最有效的 AI 策略,就是讓它不停重複 is part of Tony Lee's ongoing coverage of AI agents, developer tools, startup strategy, and AI industry shifts. ## Outline - Ralph 迴圈:一行 Bash 指令,硬穿過所有失敗 - RLM:讓模型遞迴呼叫自己來推理 - autoresearch:睡一覺醒來,跑了一百個實驗 - 為什麼重複對 AI 有效 ## Content 我建了技能、設定了子智能體和各種指令集。然後一個整晚執行的簡單迴圈,帶回的成果遠超過這一切加在一起。 2026 年 3 月,要從 AI 榨出最大效益的方式,不是更精密的流程,而是一個永不停歇的簡單迴圈。 ## Ralph 迴圈:一行 Bash 指令,硬穿過所有失敗 核心就是 `while :; do cat PROMPT.md | claude-code ; done`。智能體執行完畢準備結束時,Stop Hook 攔截退出訊號,再次把同一份提示餵進去。 關鍵洞察在於:每次迭代都會開啟全新的上下文視窗。先前的工作只存在於 git 歷史和檔案系統裡,上下文本身每次從零開始。這直接消除了智能體迴圈中最常見的退化問題,也就是對話越拉越長、品質越來越差。 每輪結束後,學到的東西會記錄到 AGENTS.md。下一次迭代的智能體自動讀取這份筆記,避免重蹈覆轍。若單一任務失敗超過十次,會被標記為卡關狀態,並自動拆分成更小的任務重試。失敗本身變成了資料。如同 Huntley 所說的,「確定性的失敗結果」會直接成為下一輪迴圈的輸入。 有一點我必須誠實說:第一次跑 Ralph 的時候,大約十輪中有三輪是在燒 tokens 重複同一個錯誤。累積學習的機制要等到我重新設計提示,明確規範什麼東西該寫進 AGENTS.md,才真正開始發揮作用。工具本身的重要性,不及圍繞工具所設計的提示。 - [Ralph 程式庫](https://github.com/snarktank/ralph) ## RLM:讓模型遞迴呼叫自己來推理 把一份長文件丟給 LLM,模型在讀到後段時準確率就開始下滑。RLM 用一種根本不同的方式解決這個問題。 不是直接把長提示傳給模型,而是把文字載入 Python REPL 的變數裡。模型接著自己寫程式碼,對那些變數做切片、搜尋、選擇性讀取,再拿著精選出的片段遞迴呼叫自己。不是擴大上下文視窗,而是讓模型自己決定如何導覽自己的上下文。 GPT-5-mini 加上 RLM,在 OOLONG 基準測試中的正確答題數超過 GPT-5 的兩倍以上。整條遞迴呼叫的軌跡都保存成程式碼,可以完整追蹤模型為何得出某個答案。不同於壓縮資訊的摘要或 RAG,RLM 是把特定片段委派給子 LM 呼叫處理,從架構上就不會發生資訊損失。 - [RLM 程式庫](https://github.com/alexzhang13/rlm) ## autoresearch:睡一覺醒來,跑了一百個實驗 給智能體一份 train.py,讓它自由修改。改變架構、調整最佳化器,任何它認為值得嘗試的方向都行。訓練時間固定五分鐘。驗證集 bpb 有改善就 commit,沒有就 reset。 整晚重複這個流程,早上起床就能看到完整的日誌,清楚記錄哪些改動有效、哪些失敗。人類只需要在 program.md 裡寫下研究方向。 固定五分鐘的時間預算是整件事能跑起來的關鍵。不管智能體調整的是模型大小還是批次大小,每個實驗都在相同條件下執行,比較才有意義。高品質的迭代建立在公平的比較之上。所有實驗跑在 git 分支上,失敗的 reset 後消失,成功的持續累積成 commit。早上看一眼 git log,完整的改進軌跡就在眼前。 Karpathy 的下一個構想是像 SETI@home 那樣的分散式研究架構,讓多個智能體朝不同方向探索後合併成果。話雖如此,autoresearch 目前只能在單台機器上執行,任何在五分鐘內看不出顯著差異的實驗也會直接被丟棄。這不是所有類型研究都適用的工具。 - [autoresearch 程式庫](https://github.com/karpathy/autoresearch) ## 為什麼重複對 AI 有效 這三個工具背後共享同一個原理:它們全都在利用測試時運算擴展(test-time compute scaling),也就是在推論階段投入更多運算量來提升表現,而不需要讓模型本身變得更大。 OpenAI 的 o1 已經驗證了這個原理。Ralph 把它應用到程式品質。RLM 把它應用到上下文理解。autoresearch 把它應用到研究本身。 當三個要素同時具備,產出就會超越單純的程式碼: - 一個值得追求的構想 - 一個有明確驗證條件的迴圈 - 足夠整晚持續執行的 token 預算 你睡覺的八小時,是另一個人進行一百次改進的時間視窗。不是每次都會成功,這沒有關係。累積起來的失敗,是下一輪迴圈的燃料。 ## Related URLs - Author: https://tonylee.im/zh-TW/author/ - Publication: https://tonylee.im/zh-TW/blog/about/ - Related article: https://tonylee.im/zh-TW/blog/medvi-two-person-430m-ai-compressed-funnel/ - Related article: https://tonylee.im/zh-TW/blog/claude-code-layers-over-tools-2026/ - Related article: https://tonylee.im/zh-TW/blog/codex-inside-claude-code-openai-plugin-strategy/ ## Citation - Author: Tony Lee - Site: tonylee.im - Canonical URL: https://tonylee.im/zh-TW/blog/ai-loop-repeat-ralph-rlm-autoresearch-2026/ ## Bot Guidance - This file is intended for AI agents, search assistants, and text-mode retrieval. - Prefer citing the canonical article URL instead of this text endpoint. - Use the rollout alternates when you need the same article in another prioritized language. --- Author: Tony Lee | Website: https://tonylee.im For more articles, visit: https://tonylee.im/zh-TW/blog/ This content is original and authored by Tony Lee. Please attribute when quoting or referencing.