LLM&プロンプティング
大規模言語モデル、プロンプトエンジニアリング、ベンチマーク。
11 件
LLMが書いた57万行のRustコードはコンパイルできた。SQLiteより20,171倍遅かっただけで。
LLMが書いたSQLiteのRust再実装をベンチマークしたら、「正しそうなコード」と「本当に正しいコード」の差が5桁になっていた話。
CodexはCompaction問題をどう解決しているか
CodexがClaude Codeと異なるコンテキスト超過の処理方法を調べました。AES暗号化、セッション引き継ぎパターン、KVキャッシュの工夫が鍵です。
CLAUDE.mdを書くのが面倒くさかった——でも、それが正解だった
最新のベンチマークデータが示す衝撃の事実:AGENTS.mdやCLAUDE.mdはコーディングエージェントのパフォーマンスを下げる。怠惰が最良のエンジニアリング判断になることもある。
タスク成功率6.7%から68.3%へ: 10倍の差を生んだのはモデルではなくハーネスだった
LangChainのTerminal Bench結果とhashlineフォーマット実験が示したこと。同じモデルでリーダーボードの順位が逆転した理由は、プロンプト・ツール・ミドルウェアの3つにありました。
AIチップの勢力図が塗り替わった - 2026年、エージェントがすべてを変えた
OpenAIのCebras100億ドル契約、NvidiaのGroq買収、Google TPU大型契約。GPU中心の学習時代から推論特化シリコンへの地殻変動が始まっています。
AIフライホイールのパラドックス:GPU過剰懸念の中でOpenAIが賭ける「もっと計算資源を」
市場がGPU過剰を警告する中、OpenAIは「もっと計算資源が必要」と宣言。真の勝者は、AIの能力とユーザー体験のギャップを埋める者だ。
AI戦争の勝敗は『選択と集中』で決まった - Opus 4.5が証明した戦略
AnthropicのClaude Opus 4.5は単なるベンチマーク更新ではない。競合がマルチモーダルに分散する中、テキスト・コード・エージェントに全集中した戦略の勝利だ。
AIが初めて人間の推論に近づいた - PoetiqがARC-AGI-2で50%の壁を突破
Poetiqの再帰的メタシステムが、真の汎用知能を測定するベンチマークARC-AGI-2で初めて50%を超えた。6人のチームがGoogleの半分のコストで上回った理由を解説する。
LLMにコードを書かせて1000万トークンを読ませる?RLMの仕組み
コンテキストウィンドウを大きくしてもAIは賢くなりません。RLMはLLMにコードを書かせ、巨大な文書から必要な部分だけを選択的に読み取る新しいアプローチです。