2026年3月19日 1 分で読めます 2026

2026年のAI戦略はシンプルなループで決まる

スキルを作り、サブエージェントを設定し、スラッシュコマンドを整えた。それなのに、一晩回し続けた単純なループがすべてを上回った話。

スキルを構築し、サブエージェントを設定し、スラッシュコマンドを整備しました。それなのに、一晩回し続けただけの単純なループが、それらすべての組み合わせより良い結果を出してしまいました。

2026年3月現在、AIから最大限の成果を引き出すのは複雑なパイプラインではありません。止まらずに走り続ける、シンプルなループです。

Ralph Loop: 失敗を突き抜けるたった一行のBash

核心は while :; do cat PROMPT.md | claude-code ; done です。エージェントが終了しようとすると、Stop Hookがその終了をブロックして同じプロンプトを再び流し込みます。

重要な気づきは、イテレーションのたびに新しいコンテキストウィンドウが開くという点です。前のイテレーションの作業はgitの履歴とファイルシステムにのみ残り、コンテキスト自体は常にクリーンな状態で始まります。会話が長くなるにつれてエージェントループが劣化するという古典的な問題がこれで解消されます。

各パスが終わると、学習内容がAGENTS.mdに記録されます。次のイテレーションのエージェントはそのメモを自動的に読み込むため、同じ失敗を繰り返しません。ある単一のタスクが10回以上失敗すると「行き詰まり」としてフラグが立てられ、より小さなピースに自動分割されて再試行されます。失敗そのものがデータになるのです。Huntleyの言葉を借りれば、「決定論的に悪い」結果が次のループのインプットとして機能します。

正直に言うと、Ralphを初めて動かしたとき、10ループのうち約3回は同じエラーを繰り返すだけでトークンを無駄遣いしました。累積学習が機能し始めたのは、AGENTS.mdに何を書くべきかを適切に構造化するようプロンプトを改良してからです。ツールよりも、それを取り囲むプロンプト設計の方が重要です。

Ralph リポジトリ

RLM: 自分自身を再帰的に呼び出して推論するモデル

長いドキュメントをLLMに渡すと、末尾に近づくにつれて精度が落ちていきます。RLMはこの問題をまったく異なるアプローチで解決します。

長いプロンプトをモデルに直接渡す代わりに、テキストをPython REPLの変数に読み込みます。モデルはその変数をスライス・検索・選択読み込みするコードを自分で書き、関連する断片だけを使って再び自分自身を呼び出します。コンテキストウィンドウを拡張するのではなく、モデル自身が自分のコンテキストをどう使うかを決定するのです。

RLMを使ったGPT-5-miniはOOLONGベンチマークでGPT-5の2倍以上の正解数を叩き出しました。再帰的な呼び出しの全軌跡がコードとして保存されるため、なぜそのような答えに至ったかを正確にトレースできます。情報を圧縮するサマリーやRAGとは異なり、RLMは特定の断片をサブLM呼び出しに委譲します。構造的な情報損失が起きません。

RLM リポジトリ

autoresearch: 眠っている間に100回の実験

エージェントに単一のtrain.pyを渡して、自由に変更させます。アーキテクチャを変えてもオプティマイザーを調整しても構いません。トレーニングをちょうど5分間実行します。val_bpbが改善していればコミット、そうでなければリセット。

これを一晩繰り返すと、朝にはどの変更が機能してどれが失敗したかを示すログが手元に揃っています。人間がやることはprogram.mdに方向性を書き込むだけです。

固定の5分という時間制約がこの仕組みを機能させます。モデルサイズを変えてもバッチサイズを変えても、すべての実験が同一条件で動きます。公平な比較こそが高品質なイテレーションの核心です。すべてがgitブランチ上で動くため、失敗した実験はリセットで消え、成功したものはコミットとして積み上がっていきます。朝のgit logが改善の全体像を語ってくれます。

Karpathyが次に描くビジョンは、複数のエージェントが異なる方向で実験して結果をマージするSETI@home的な分散研究構造です。ただし現在のautoresearchは単一マシン上で動作しており、5分以内に意味のある差が出なかった実験は破棄されます。あらゆる種類のリサーチに適しているわけではない点は念頭に置く必要があります。

autoresearch リポジトリ

なぜ繰り返しがAIで機能するのか

この3つのツールには共通する原則があります。いずれもテスト時計算スケーリング、つまり推論時により多くの計算を費やすことでモデルを大きくせずに性能を向上させる考え方を利用しています。

OpenAIのo1がすでにこの原則を実証しました。Ralphはそれをコード品質に適用し、RLMはコンテキスト理解に、autoresearchはリサーチに適用しています。

3つの要素が揃ったとき、出力は単純なコードを超えます。

価値のあるアイデア
明確な検証条件を持つループ
一晩走らせるだけのトークン予算

あなたが眠っている8時間は、100回の改善が走る時間でもあります。もちろん100回すべてが成功するわけではありません。それで構いません。積み重なった失敗が、次のループの燃料になります。

ニュースレターに登録

最新のプロジェクト、記事、AIとWeb開発の実験に関する情報をお届けします。