2026年3月19日 1 分鐘閱讀

2026年最有效嘅AI策略，原來只係一個循環

我建過技能、配置過子代理、寫過slash commands。然後一個通宵跑嘅簡單循環，竟然跑贏晒所有嘅設定。三種循環架構，真正有用嘅。

我建過技能，配置過子代理，寫過slash commands。然後一個通宵跑嘅簡單循環，帶返嚟嘅結果比晒所有設定加埋仲要好。

2026年3月，要榨盡AI嘅潛力，答案唔係一條複雜嘅pipeline。係一個唔停嘅循環。

Ralph Loop：一行Bash，撞牆都唔停

核心就係 while :; do cat PROMPT.md | claude-code ; done。代理完成之後想退出，Stop Hook攔截退出信號，將同一個提示詞重新推入去。

最關鍵嘅洞見係：每一次迭代都係全新嘅context window。上一輪嘅工作只留喺git歷史同檔案系統入面。Context本身永遠係乾淨嘅起點。呢樣嘢消除咗傳統agent loop嘅老問題：對話越長，表現越差。

每次跑完，學到嘅嘢寫入AGENTS.md。下一輪嘅代理自動讀取呢啲筆記，唔會重蹈同一個錯誤。如果同一個任務失敗超過10次，系統會標記佢為「卡住」，自動拆細重試。失敗本身變成數據。Huntley形容得好，「確定性嘅失敗」直接成為下一輪嘅輸入。

有件事要老實講：第一次跑Ralph，10個循環入面有大約3個都係喺重複同一個錯誤度浪費token。累積學習嘅機制要等到我改善咗提示詞、正確定義咩嘢應該寫入AGENTS.md，先至真正發揮作用。工具本身次要，圍繞工具嘅prompt設計先係關鍵。

Ralph repository

RLM：畀模型自己寫code，遞歸讀自己需要嘅嘢

將一份長文件塞入LLM，模型喺尾段嘅準確度就開始跌。RLM用咗一個根本性唔同嘅方式解決呢個問題。

佢唔係直接將長prompt傳畀模型，而係將文本載入Python REPL嘅變數入面。模型自己寫code去切片、搜索、選擇性讀取呢啲變數，再用相關嘅片段呼叫自己。Context window唔使擴大，模型自己決定點樣導航自己嘅context。

GPT-5-mini加上RLM，喺OOLONG benchmark上嘅正確答案超過GPT-5兩倍以上。成個遞歸呼叫嘅軌跡以code形式保存，所以你可以追查模型點解得出某個答案。唔同summarization或RAG會壓縮資訊，RLM係將特定片段委託畀子LLM呼叫處理。資訊唔會因為架構本身而流失。

RLM repository

autoresearch：訓練佢，你去瞓覺，朝早睇結果

畀agent一個train.py，任佢自由修改。改架構、調optimizer，佢想點就點。然後跑training，時間上限5分鐘。val_bpb有改善就commit，冇就reset。

通宵不斷重複，朝早就有log記錄哪些改動有用、哪些無效。人負責嘅只係喺program.md入面寫方向。

5分鐘嘅固定時間預算係呢套嘢有效嘅原因。無論agent改咗model size定batch size，每個實驗都喺完全相同嘅條件下跑。公平比較係高質素迭代嘅核心。所有嘢喺git branch上跑，失敗嘅實驗reset就消失，成功嘅就積累成commit。朝早git log一睇，整個改進歷程清清楚楚。

不過autoresearch目前只能喺單一機器上跑，係一個真實嘅限制。而且任何喺5分鐘內睇唔到明顯差異嘅實驗都會被丟棄。對於需要長時間訓練先至分勝負嘅研究，呢個時間窗口唔夠用。Karpathy下一步嘅願景係類似SETI@home嘅分布式研究架構，多個agent同時朝唔同方向實驗再合併結果，但依家未去到嗰一步。

autoresearch repository

為咩重複喺AI上有效

三個工具共享同一個原理，就係test-time compute scaling：喺推理階段投入更多算力，唔需要令模型本身更大，就可以提升表現。

OpenAI嘅o1已經驗證咗呢個原理。Ralph將佢應用到代碼質量。RLM將佢應用到context理解。autoresearch將佢應用到研究本身。

三樣嘢湊齊，輸出就唔再是普通嘅代碼：

一個值得做嘅想法
一個有清晰驗證條件嘅循環
足夠嘅token預算跑一個通宵

你瞓覺嘅8個小時，係另一個人100次改進嘅窗口。100次唔會全部成功，係嘅。但積累嘅失敗，係下一個循環嘅燃料。

訂閱通訊

獲取關於我最新項目、文章同埋 AI 和 Web 開發實驗嘅更新。