タスク成功率6.7%から68.3%へ: 10倍の差を生んだのはモデルではなくハーネスだった
LangChainのTerminal Bench結果とhashlineフォーマット実験が示したこと。同じモデルでリーダーボードの順位が逆転した理由は、プロンプト・ツール・ミドルウェアの3つにありました。
2 posts
LangChainのTerminal Bench結果とhashlineフォーマット実験が示したこと。同じモデルでリーダーボードの順位が逆転した理由は、プロンプト・ツール・ミドルウェアの3つにありました。
Manusがコンテキスト腐敗から評価指標の再考まで、本番AIエージェント構築で得た実戦的教訓をLangChainとの共同発表で語った。