La IA se acerca al razonamiento humano por primera vez - Poetiq supera el 50% en ARC-AGI-2
El metasistema recursivo de Poetiq se ha convertido en el primero en superar el 50% en ARC-AGI-2, el benchmark diseñado para evaluar la inteligencia general real. Así es como un equipo de 6 personas superó a Google con la mitad del coste.
Poetiq acaba de hacer historia en el benchmark ARC-AGI.
ARC-AGI es la prueba diseñada para evaluar si la IA posee una auténtica inteligencia general. No pide a los modelos que regurgiten datos de entrenamiento. En su lugar, presenta problemas de patrones completamente nuevos y exige que el sistema infiera las reglas subyacentes por sí mismo. Los humanos obtienen una precisión media del 60%. Hasta ahora, los sistemas de IA quedaban muy por debajo de esa cifra.
Por qué importa el resultado de Poetiq
- Primera en superar el 50% en ARC-AGI-2 - verificado oficialmente por la ARC Prize Foundation con un 54% de precisión
- La mitad del coste que el anterior estado del arte - 30,57 $ por problema frente a los 77,16 $ de Gemini 3 Deep Think
- Un equipo de 6 personas con 53 años de experiencia combinada de Google DeepMind superó a los laboratorios de IA más grandes
- Enfoque totalmente de código abierto y prompts disponibles en GitHub
Para poner en contexto, los principales modelos de IA obtuvieron menos del 5% en ARC-AGI-2 a principios de 2025. El salto de menos del 5% a más del 50% en cuestión de meses indica que algo fundamental ha cambiado.
La arquitectura - Razonamiento recursivo frente a escala bruta
La innovación clave es un metasistema que no entrena nuevos modelos. En su lugar, orquesta LLMs existentes a través de bucles iterativos de razonamiento.
El sistema genera una solución candidata, la critica, analiza el feedback y utiliza el LLM para refinar la respuesta. Y repite. El prompt es simplemente la interfaz - la verdadera inteligencia emerge de este proceso iterativo de refinamiento.
Esto supone una ruptura deliberada con el prompting estándar de cadena de pensamiento. En lugar de preguntar una vez y aceptar el resultado, el sistema de Poetiq trata cada respuesta como un borrador que debe mejorarse mediante autocrítica estructurada.
Autoauditoría - Saber cuándo parar
La capacidad más impresionante es el mecanismo de autoauditoría. El sistema determina de forma autónoma cuándo ha recopilado suficiente información y cuándo terminar el proceso de razonamiento.
Esto no es solo una comodidad de ingeniería - es un mecanismo económico fundamental. Al promediar menos de dos peticiones al LLM por problema ARC, el sistema minimiza la computación innecesaria mientras mantiene la precisión. Así es como un equipo pequeño logró resultados superiores con la mitad del coste de competidores valorados en billones de dólares.
Lo que esto demuestra
Tras el Tiny Recursive Model (TRM) y RLM, el resultado de Poetiq es la evidencia más sólida hasta la fecha de que las arquitecturas de razonamiento recursivo representan un camino viable hacia la AGI.
La lección no trata de construir modelos más grandes o ventanas de contexto más largas. Se trata de diseñar sistemas que piensen de forma iterativa - generando, evaluando y refinando en bucles estructurados. Cuando el propio proceso de razonamiento se convierte en el producto, la escala bruta del modelo importa menos que el diseño de la arquitectura.
La implementación completa, los prompts y la metodología están disponibles en GitHub.
Únete al boletín
Recibe actualizaciones sobre mis últimos proyectos, artículos y experimentos con IA y desarrollo web.