LLM et prompting

Grands modèles de langage, ingénierie de prompt et benchmarking.

11 posts

26 mars 2026

Les quatre types de contexte qui déterminent si l'IA vous aide vraiment

J'ai passé un week-end entier à bourrer un agent de PDFs. Les résultats se sont dégradés. Comprendre pourquoi a changé ma façon de travailler avec les LLMs.

12 mars 2026

570 000 lignes de code LLM qui compilaient parfaitement. 20 171 fois plus lent que SQLite.

Un développeur a benchmarké une réimplémentation Rust de SQLite entièrement écrite par un LLM. L'écart entre du code qui semble juste et du code qui l'est vraiment s'est avéré couvrir cinq ordres de grandeur.

5 mars 2026

Comment Codex résout différemment la compaction

J'ai décortiqué comment Codex gère le débordement de contexte face à Claude Code : chiffrement AES, session handover et optimisation du KV cache.

25 févr. 2026

J'étais trop flemmard pour écrire un CLAUDE.md — et c'était la bonne décision

Des données de benchmark récentes montrent que les fichiers de contexte AGENTS.md et CLAUDE.md nuisent en réalité aux performances des agents de code. Parfois, la paresse est la meilleure décision d'ingénierie.

20 févr. 2026

Coller le prompt deux fois a changé la précision du modèle

La méthode la moins chère pour améliorer les performances d'un LLM, validée par Google Research sur 7 modèles. Pas de fine-tuning, pas de prompt engineering. Juste un copier-coller.

18 févr. 2026

De 6,7 % à 68,3 % de tâches réussies : c'est le harness, pas le modèle, qui fait une différence de 10x

Ce que révèlent les résultats de Terminal Bench de LangChain et les expériences sur le format hashline. Les trois raisons pour lesquelles les classements se sont inversés avec le même modèle : le prompt, les outils et le middleware.

8 févr. 2026

La carte des puces IA vient d'être redessinée - les agents ont tout changé en 2026

Le deal de 10 milliards d'OpenAI avec Cerebras, l'acquisition de Groq par Nvidia et les méga-contrats Google TPU signalent un basculement tectonique du GPU vers le silicium optimisé pour l'inférence.

8 févr. 2026

Le paradoxe de la spirale de l'IA : le pari d'OpenAI sur la puissance de calcul face aux craintes de surcapacité

Tandis que le marché s'inquiète d'une surcapacité GPU, OpenAI affirme avoir besoin de plus de puissance de calcul. Mais le véritable goulot d'étranglement se situe ailleurs.

8 févr. 2026

La guerre de l'IA s'est jouée sur la concentration - Ce que l'Opus 4.5 d'Anthropic révèle sur la stratégie

Le Claude Opus 4.5 d'Anthropic n'a pas seulement établi de nouveaux records. Il prouve que miser sur le texte, le code et les agents pendant que les concurrents se dispersent est la stratégie gagnante.

8 févr. 2026

L'IA atteint le raisonnement humain pour la première fois - Poetiq franchit les 50 % sur ARC-AGI-2

Le méta-système récursif de Poetiq est devenu le premier à dépasser 50 % sur ARC-AGI-2, le benchmark conçu pour tester la véritable intelligence générale. Comment une équipe de 6 personnes a surpassé Google à moitié prix.

8 févr. 2026

Faire coder un LLM pour lire 10 millions de tokens - Le fonctionnement de RLM

Une fenêtre de contexte plus grande ne rend pas l'IA plus intelligente. RLM change la donne en laissant les LLM écrire du code pour lire sélectivement des documents massifs.