Les quatre types de contexte qui déterminent si l'IA vous aide vraiment
J'ai passé un week-end entier à bourrer un agent de PDFs. Les résultats se sont dégradés. Comprendre pourquoi a changé ma façon de travailler avec les LLMs.
Grands modèles de langage, ingénierie de prompt et benchmarking.
11 posts
J'ai passé un week-end entier à bourrer un agent de PDFs. Les résultats se sont dégradés. Comprendre pourquoi a changé ma façon de travailler avec les LLMs.
Un développeur a benchmarké une réimplémentation Rust de SQLite entièrement écrite par un LLM. L'écart entre du code qui semble juste et du code qui l'est vraiment s'est avéré couvrir cinq ordres de grandeur.
J'ai décortiqué comment Codex gère le débordement de contexte face à Claude Code : chiffrement AES, session handover et optimisation du KV cache.
Des données de benchmark récentes montrent que les fichiers de contexte AGENTS.md et CLAUDE.md nuisent en réalité aux performances des agents de code. Parfois, la paresse est la meilleure décision d'ingénierie.
La méthode la moins chère pour améliorer les performances d'un LLM, validée par Google Research sur 7 modèles. Pas de fine-tuning, pas de prompt engineering. Juste un copier-coller.
Ce que révèlent les résultats de Terminal Bench de LangChain et les expériences sur le format hashline. Les trois raisons pour lesquelles les classements se sont inversés avec le même modèle : le prompt, les outils et le middleware.
Le deal de 10 milliards d'OpenAI avec Cerebras, l'acquisition de Groq par Nvidia et les méga-contrats Google TPU signalent un basculement tectonique du GPU vers le silicium optimisé pour l'inférence.
Tandis que le marché s'inquiète d'une surcapacité GPU, OpenAI affirme avoir besoin de plus de puissance de calcul. Mais le véritable goulot d'étranglement se situe ailleurs.
Le Claude Opus 4.5 d'Anthropic n'a pas seulement établi de nouveaux records. Il prouve que miser sur le texte, le code et les agents pendant que les concurrents se dispersent est la stratégie gagnante.
Le méta-système récursif de Poetiq est devenu le premier à dépasser 50 % sur ARC-AGI-2, le benchmark conçu pour tester la véritable intelligence générale. Comment une équipe de 6 personnes a surpassé Google à moitié prix.
Une fenêtre de contexte plus grande ne rend pas l'IA plus intelligente. RLM change la donne en laissant les LLM écrire du code pour lire sélectivement des documents massifs.