L'IA atteint le raisonnement humain pour la première fois - Poetiq franchit les 50 % sur ARC-AGI-2
Le méta-système récursif de Poetiq est devenu le premier à dépasser 50 % sur ARC-AGI-2, le benchmark conçu pour tester la véritable intelligence générale. Comment une équipe de 6 personnes a surpassé Google à moitié prix.
Poetiq vient d’entrer dans l’histoire avec le benchmark ARC-AGI.
ARC-AGI est le test conçu pour évaluer si une IA possède une véritable intelligence générale. Il ne demande pas aux modèles de régurgiter des données d’entraînement. Au lieu de cela, il présente des problèmes de motifs entièrement nouveaux et exige que le système infère lui-même les règles sous-jacentes. Les humains atteignent en moyenne 60 % de précision. Jusqu’à présent, les systèmes d’IA restaient loin de cette barre.
Pourquoi le résultat de Poetiq est important
- Premier à franchir 50 % sur ARC-AGI-2 - officiellement vérifié par l’ARC Prize Foundation avec 54 % de précision
- Deux fois moins cher que l’état de l’art précédent - 30,57 $ par problème contre 77,16 $ pour Gemini 3 Deep Think
- Une équipe de 6 personnes avec 53 ans d’expérience combinée chez Google DeepMind a surpassé les plus grands laboratoires d’IA
- Approche entièrement open source avec les prompts disponibles sur GitHub
Pour replacer dans le contexte : les modèles d’IA les plus avancés obtenaient moins de 5 % sur ARC-AGI-2 début 2025. Le passage de moins de 5 % à plus de 50 % en quelques mois signale qu’un changement fondamental s’est produit.
L’architecture - raisonnement récursif plutôt que puissance brute
L’innovation principale est un méta-système qui n’entraîne pas de nouveaux modèles. Au lieu de cela, il orchestre des LLM existants à travers des boucles itératives de raisonnement.
Le système génère une solution candidate, la critique, analyse le retour, et utilise le LLM pour affiner la réponse. Puis recommence. Le prompt n’est que l’interface - la véritable intelligence émerge de ce processus itératif de raffinement.
Il s’agit d’un écart délibéré par rapport au prompting en chaîne de pensée standard. Plutôt que de poser une question une fois et d’accepter la réponse, le système de Poetiq traite chaque réponse comme un brouillon à améliorer par une auto-critique structurée.
Auto-audit - savoir quand s’arrêter
La capacité la plus impressionnante est le mécanisme d’auto-audit. Le système détermine de manière autonome quand il a rassemblé suffisamment d’informations et quand terminer le processus de raisonnement.
Ce n’est pas qu’une commodité d’ingénierie - c’est un mécanisme économique central. En moyenne moins de deux requêtes LLM par problème ARC, le système minimise les calculs inutiles tout en maintenant la précision. C’est ainsi qu’une petite équipe a obtenu des résultats supérieurs à moitié prix face à des concurrents pesant des milliers de milliards.
Ce que cela prouve
Après le Tiny Recursive Model (TRM) et RLM, le résultat de Poetiq est la preuve la plus solide à ce jour que les architectures de raisonnement récursif représentent une voie viable vers l’AGI.
La leçon n’est pas de construire des modèles plus gros ou des fenêtres de contexte plus longues. Il s’agit de concevoir des systèmes qui pensent de manière itérative - générant, évaluant et affinant dans des boucles structurées. Quand le processus de raisonnement lui-même devient le produit, l’échelle brute du modèle compte moins que la conception de l’architecture.
L’implémentation complète, les prompts et la méthodologie sont disponibles sur GitHub.
Rejoindre la newsletter
Recevez des mises à jour sur mes derniers projets, articles et expériences en IA et développement web.