LLM＆プロンプティング

大規模言語モデル、プロンプトエンジニアリング、ベンチマーク。

11 件

2026年3月26日

AIが助けになるか時間の無駄になるかを決める、4つのコンテキスト

100MB超のPDFをエージェントに詰め込んだ週末の失敗談から見えてきた、AI時代に本当に価値あるものとは何か。

2026年3月12日

LLMが書いたSQLiteのRust再実装をベンチマークしたら、「正しそうなコード」と「本当に正しいコード」の差が5桁になっていた話。

2026年3月5日

CodexがClaude Codeと異なるコンテキスト超過の処理方法を調べました。AES暗号化、セッション引き継ぎパターン、KVキャッシュの工夫が鍵です。

2026年2月25日

最新のベンチマークデータが示す衝撃の事実：AGENTS.mdやCLAUDE.mdはコーディングエージェントのパフォーマンスを下げる。怠惰が最良のエンジニアリング判断になることもある。

2026年2月20日

Google Researchが7モデルで検証した最も安いLLM性能改善法。追加学習もプロンプト設計も不要。コピペだけで済む。

2026年2月18日

LangChainのTerminal Bench結果とhashlineフォーマット実験が示したこと。同じモデルでリーダーボードの順位が逆転した理由は、プロンプト・ツール・ミドルウェアの3つにありました。

2026年2月8日

OpenAIのCebras100億ドル契約、NvidiaのGroq買収、Google TPU大型契約。GPU中心の学習時代から推論特化シリコンへの地殻変動が始まっています。

2026年2月8日

市場がGPU過剰を警告する中、OpenAIは「もっと計算資源が必要」と宣言。真の勝者は、AIの能力とユーザー体験のギャップを埋める者だ。

2026年2月8日

AnthropicのClaude Opus 4.5は単なるベンチマーク更新ではない。競合がマルチモーダルに分散する中、テキスト・コード・エージェントに全集中した戦略の勝利だ。

2026年2月8日

Poetiqの再帰的メタシステムが、真の汎用知能を測定するベンチマークARC-AGI-2で初めて50%を超えた。6人のチームがGoogleの半分のコストで上回った理由を解説する。

2026年2月8日

コンテキストウィンドウを大きくしてもAIは賢くなりません。RLMはLLMにコードを書かせ、巨大な文書から必要な部分だけを選択的に読み取る新しいアプローチです。