目錄
1 分鐘閱讀 2026

2026 年最有效的 AI 策略,就是讓它不停重複

我建了技能、設定了子智能體和指令集。然後一個整晚跑的簡單迴圈,成果遠超過所有複雜設定。三種真正有效的迴圈架構。

我建了技能、設定了子智能體和各種指令集。然後一個整晚執行的簡單迴圈,帶回的成果遠超過這一切加在一起。

2026 年 3 月,要從 AI 榨出最大效益的方式,不是更精密的流程,而是一個永不停歇的簡單迴圈。

Ralph 迴圈:一行 Bash 指令,硬穿過所有失敗

核心就是 while :; do cat PROMPT.md | claude-code ; done。智能體執行完畢準備結束時,Stop Hook 攔截退出訊號,再次把同一份提示餵進去。

關鍵洞察在於:每次迭代都會開啟全新的上下文視窗。先前的工作只存在於 git 歷史和檔案系統裡,上下文本身每次從零開始。這直接消除了智能體迴圈中最常見的退化問題,也就是對話越拉越長、品質越來越差。

每輪結束後,學到的東西會記錄到 AGENTS.md。下一次迭代的智能體自動讀取這份筆記,避免重蹈覆轍。若單一任務失敗超過十次,會被標記為卡關狀態,並自動拆分成更小的任務重試。失敗本身變成了資料。如同 Huntley 所說的,「確定性的失敗結果」會直接成為下一輪迴圈的輸入。

有一點我必須誠實說:第一次跑 Ralph 的時候,大約十輪中有三輪是在燒 tokens 重複同一個錯誤。累積學習的機制要等到我重新設計提示,明確規範什麼東西該寫進 AGENTS.md,才真正開始發揮作用。工具本身的重要性,不及圍繞工具所設計的提示。

RLM:讓模型遞迴呼叫自己來推理

把一份長文件丟給 LLM,模型在讀到後段時準確率就開始下滑。RLM 用一種根本不同的方式解決這個問題。

不是直接把長提示傳給模型,而是把文字載入 Python REPL 的變數裡。模型接著自己寫程式碼,對那些變數做切片、搜尋、選擇性讀取,再拿著精選出的片段遞迴呼叫自己。不是擴大上下文視窗,而是讓模型自己決定如何導覽自己的上下文。

GPT-5-mini 加上 RLM,在 OOLONG 基準測試中的正確答題數超過 GPT-5 的兩倍以上。整條遞迴呼叫的軌跡都保存成程式碼,可以完整追蹤模型為何得出某個答案。不同於壓縮資訊的摘要或 RAG,RLM 是把特定片段委派給子 LM 呼叫處理,從架構上就不會發生資訊損失。

autoresearch:睡一覺醒來,跑了一百個實驗

給智能體一份 train.py,讓它自由修改。改變架構、調整最佳化器,任何它認為值得嘗試的方向都行。訓練時間固定五分鐘。驗證集 bpb 有改善就 commit,沒有就 reset。

整晚重複這個流程,早上起床就能看到完整的日誌,清楚記錄哪些改動有效、哪些失敗。人類只需要在 program.md 裡寫下研究方向。

固定五分鐘的時間預算是整件事能跑起來的關鍵。不管智能體調整的是模型大小還是批次大小,每個實驗都在相同條件下執行,比較才有意義。高品質的迭代建立在公平的比較之上。所有實驗跑在 git 分支上,失敗的 reset 後消失,成功的持續累積成 commit。早上看一眼 git log,完整的改進軌跡就在眼前。

Karpathy 的下一個構想是像 SETI@home 那樣的分散式研究架構,讓多個智能體朝不同方向探索後合併成果。話雖如此,autoresearch 目前只能在單台機器上執行,任何在五分鐘內看不出顯著差異的實驗也會直接被丟棄。這不是所有類型研究都適用的工具。

為什麼重複對 AI 有效

這三個工具背後共享同一個原理:它們全都在利用測試時運算擴展(test-time compute scaling),也就是在推論階段投入更多運算量來提升表現,而不需要讓模型本身變得更大。

OpenAI 的 o1 已經驗證了這個原理。Ralph 把它應用到程式品質。RLM 把它應用到上下文理解。autoresearch 把它應用到研究本身。

當三個要素同時具備,產出就會超越單純的程式碼:

  • 一個值得追求的構想
  • 一個有明確驗證條件的迴圈
  • 足夠整晚持續執行的 token 預算

你睡覺的八小時,是另一個人進行一百次改進的時間視窗。不是每次都會成功,這沒有關係。累積起來的失敗,是下一輪迴圈的燃料。

訂閱電子報

獲取關於我最新專案、文章以及 AI 和 Web 開發實驗的更新。