目錄
1 分鐘閱讀

2026年最有效嘅AI策略,原來只係一個循環

我建過技能、配置過子代理、寫過slash commands。然後一個通宵跑嘅簡單循環,竟然跑贏晒所有嘅設定。三種循環架構,真正有用嘅。

我建過技能,配置過子代理,寫過slash commands。然後一個通宵跑嘅簡單循環,帶返嚟嘅結果比晒所有設定加埋仲要好。

2026年3月,要榨盡AI嘅潛力,答案唔係一條複雜嘅pipeline。係一個唔停嘅循環。

Ralph Loop:一行Bash,撞牆都唔停

核心就係 while :; do cat PROMPT.md | claude-code ; done。代理完成之後想退出,Stop Hook攔截退出信號,將同一個提示詞重新推入去。

最關鍵嘅洞見係:每一次迭代都係全新嘅context window。上一輪嘅工作只留喺git歷史同檔案系統入面。Context本身永遠係乾淨嘅起點。呢樣嘢消除咗傳統agent loop嘅老問題:對話越長,表現越差。

每次跑完,學到嘅嘢寫入AGENTS.md。下一輪嘅代理自動讀取呢啲筆記,唔會重蹈同一個錯誤。如果同一個任務失敗超過10次,系統會標記佢為「卡住」,自動拆細重試。失敗本身變成數據。Huntley形容得好,「確定性嘅失敗」直接成為下一輪嘅輸入。

有件事要老實講:第一次跑Ralph,10個循環入面有大約3個都係喺重複同一個錯誤度浪費token。累積學習嘅機制要等到我改善咗提示詞、正確定義咩嘢應該寫入AGENTS.md,先至真正發揮作用。工具本身次要,圍繞工具嘅prompt設計先係關鍵。

RLM:畀模型自己寫code,遞歸讀自己需要嘅嘢

將一份長文件塞入LLM,模型喺尾段嘅準確度就開始跌。RLM用咗一個根本性唔同嘅方式解決呢個問題。

佢唔係直接將長prompt傳畀模型,而係將文本載入Python REPL嘅變數入面。模型自己寫code去切片、搜索、選擇性讀取呢啲變數,再用相關嘅片段呼叫自己。Context window唔使擴大,模型自己決定點樣導航自己嘅context。

GPT-5-mini加上RLM,喺OOLONG benchmark上嘅正確答案超過GPT-5兩倍以上。成個遞歸呼叫嘅軌跡以code形式保存,所以你可以追查模型點解得出某個答案。唔同summarization或RAG會壓縮資訊,RLM係將特定片段委託畀子LLM呼叫處理。資訊唔會因為架構本身而流失。

autoresearch:訓練佢,你去瞓覺,朝早睇結果

畀agent一個train.py,任佢自由修改。改架構、調optimizer,佢想點就點。然後跑training,時間上限5分鐘。val_bpb有改善就commit,冇就reset。

通宵不斷重複,朝早就有log記錄哪些改動有用、哪些無效。人負責嘅只係喺program.md入面寫方向。

5分鐘嘅固定時間預算係呢套嘢有效嘅原因。無論agent改咗model size定batch size,每個實驗都喺完全相同嘅條件下跑。公平比較係高質素迭代嘅核心。所有嘢喺git branch上跑,失敗嘅實驗reset就消失,成功嘅就積累成commit。朝早git log一睇,整個改進歷程清清楚楚。

不過autoresearch目前只能喺單一機器上跑,係一個真實嘅限制。而且任何喺5分鐘內睇唔到明顯差異嘅實驗都會被丟棄。對於需要長時間訓練先至分勝負嘅研究,呢個時間窗口唔夠用。Karpathy下一步嘅願景係類似SETI@home嘅分布式研究架構,多個agent同時朝唔同方向實驗再合併結果,但依家未去到嗰一步。

為咩重複喺AI上有效

三個工具共享同一個原理,就係test-time compute scaling:喺推理階段投入更多算力,唔需要令模型本身更大,就可以提升表現。

OpenAI嘅o1已經驗證咗呢個原理。Ralph將佢應用到代碼質量。RLM將佢應用到context理解。autoresearch將佢應用到研究本身。

三樣嘢湊齊,輸出就唔再是普通嘅代碼:

  • 一個值得做嘅想法
  • 一個有清晰驗證條件嘅循環
  • 足夠嘅token預算跑一個通宵

你瞓覺嘅8個小時,係另一個人100次改進嘅窗口。100次唔會全部成功,係嘅。但積累嘅失敗,係下一個循環嘅燃料。

訂閱通訊

獲取關於我最新項目、文章同埋 AI 和 Web 開發實驗嘅更新。