2026年3月19日 1 分鐘閱讀 2026

2026 年最有效的 AI 策略，就是讓它不停重複

我建了技能、設定了子智能體和指令集。然後一個整晚跑的簡單迴圈，成果遠超過所有複雜設定。三種真正有效的迴圈架構。

我建了技能、設定了子智能體和各種指令集。然後一個整晚執行的簡單迴圈，帶回的成果遠超過這一切加在一起。

2026 年 3 月，要從 AI 榨出最大效益的方式，不是更精密的流程，而是一個永不停歇的簡單迴圈。

Ralph 迴圈：一行 Bash 指令，硬穿過所有失敗

核心就是 while :; do cat PROMPT.md | claude-code ; done。智能體執行完畢準備結束時，Stop Hook 攔截退出訊號，再次把同一份提示餵進去。

關鍵洞察在於：每次迭代都會開啟全新的上下文視窗。先前的工作只存在於 git 歷史和檔案系統裡，上下文本身每次從零開始。這直接消除了智能體迴圈中最常見的退化問題，也就是對話越拉越長、品質越來越差。

每輪結束後，學到的東西會記錄到 AGENTS.md。下一次迭代的智能體自動讀取這份筆記，避免重蹈覆轍。若單一任務失敗超過十次，會被標記為卡關狀態，並自動拆分成更小的任務重試。失敗本身變成了資料。如同 Huntley 所說的，「確定性的失敗結果」會直接成為下一輪迴圈的輸入。

有一點我必須誠實說：第一次跑 Ralph 的時候，大約十輪中有三輪是在燒 tokens 重複同一個錯誤。累積學習的機制要等到我重新設計提示，明確規範什麼東西該寫進 AGENTS.md，才真正開始發揮作用。工具本身的重要性，不及圍繞工具所設計的提示。

Ralph 程式庫

RLM：讓模型遞迴呼叫自己來推理

把一份長文件丟給 LLM，模型在讀到後段時準確率就開始下滑。RLM 用一種根本不同的方式解決這個問題。

不是直接把長提示傳給模型，而是把文字載入 Python REPL 的變數裡。模型接著自己寫程式碼，對那些變數做切片、搜尋、選擇性讀取，再拿著精選出的片段遞迴呼叫自己。不是擴大上下文視窗，而是讓模型自己決定如何導覽自己的上下文。

GPT-5-mini 加上 RLM，在 OOLONG 基準測試中的正確答題數超過 GPT-5 的兩倍以上。整條遞迴呼叫的軌跡都保存成程式碼，可以完整追蹤模型為何得出某個答案。不同於壓縮資訊的摘要或 RAG，RLM 是把特定片段委派給子 LM 呼叫處理，從架構上就不會發生資訊損失。

RLM 程式庫

autoresearch：睡一覺醒來，跑了一百個實驗

給智能體一份 train.py，讓它自由修改。改變架構、調整最佳化器，任何它認為值得嘗試的方向都行。訓練時間固定五分鐘。驗證集 bpb 有改善就 commit，沒有就 reset。

整晚重複這個流程，早上起床就能看到完整的日誌，清楚記錄哪些改動有效、哪些失敗。人類只需要在 program.md 裡寫下研究方向。

固定五分鐘的時間預算是整件事能跑起來的關鍵。不管智能體調整的是模型大小還是批次大小，每個實驗都在相同條件下執行，比較才有意義。高品質的迭代建立在公平的比較之上。所有實驗跑在 git 分支上，失敗的 reset 後消失，成功的持續累積成 commit。早上看一眼 git log，完整的改進軌跡就在眼前。

Karpathy 的下一個構想是像 SETI@home 那樣的分散式研究架構，讓多個智能體朝不同方向探索後合併成果。話雖如此，autoresearch 目前只能在單台機器上執行，任何在五分鐘內看不出顯著差異的實驗也會直接被丟棄。這不是所有類型研究都適用的工具。

autoresearch 程式庫

為什麼重複對 AI 有效

這三個工具背後共享同一個原理：它們全都在利用測試時運算擴展（test-time compute scaling），也就是在推論階段投入更多運算量來提升表現，而不需要讓模型本身變得更大。

OpenAI 的 o1 已經驗證了這個原理。Ralph 把它應用到程式品質。RLM 把它應用到上下文理解。autoresearch 把它應用到研究本身。

當三個要素同時具備，產出就會超越單純的程式碼：

一個值得追求的構想
一個有明確驗證條件的迴圈
足夠整晚持續執行的 token 預算

你睡覺的八小時，是另一個人進行一百次改進的時間視窗。不是每次都會成功，這沒有關係。累積起來的失敗，是下一輪迴圈的燃料。

訂閱電子報

獲取關於我最新專案、文章以及 AI 和 Web 開發實驗的更新。