Índice
3 min de lectura

La IA se acerca al razonamiento humano por primera vez - Poetiq supera el 50% en ARC-AGI-2

El meta-sistema recursivo de Poetiq se convirtió en el primero en superar el 50% en ARC-AGI-2, la prueba diseñada para evaluar la verdadera inteligencia general. Así es como un equipo de 6 personas superó a Google con la mitad del costo.

Poetiq acaba de hacer historia en el benchmark ARC-AGI.

ARC-AGI es la prueba diseñada para evaluar si la IA posee inteligencia general genuina. No les pide a los modelos que regurgiten datos de entrenamiento. En cambio, presenta problemas de patrones completamente nuevos y requiere que el sistema infiera las reglas subyacentes por sí solo. Los humanos promedian alrededor del 60% de precisión. Hasta ahora, los sistemas de IA quedaban muy por debajo de esa marca.

Por qué importa el resultado de Poetiq

  • Primero en superar el 50% en ARC-AGI-2 - verificado oficialmente por la ARC Prize Foundation con un 54% de precisión
  • La mitad del costo del estado del arte anterior - $30.57 por problema versus $77.16 de Gemini 3 Deep Think
  • Un equipo de 6 personas con 53 años de experiencia combinada de Google DeepMind superó a los laboratorios de IA más grandes
  • Enfoque completamente de código abierto y prompts disponibles en GitHub

Para dar contexto, los modelos de IA líderes obtuvieron menos del 5% en ARC-AGI-2 a principios de 2025. El salto de menos del 5% a más del 50% en meses señala que algo fundamental ha cambiado.

La arquitectura - Razonamiento recursivo sobre escala bruta

La innovación central es un meta-sistema que no entrena nuevos modelos. En cambio, orquesta LLMs existentes a través de bucles iterativos de razonamiento.

El sistema genera una solución candidata, la critica, analiza la retroalimentación y usa el LLM para refinar la respuesta. Se repite. El prompt es simplemente la interfaz - la verdadera inteligencia emerge de este proceso iterativo de refinamiento.

Esto es un alejamiento deliberado del prompting estándar de cadena de pensamiento. En lugar de preguntar una vez y aceptar la salida, el sistema de Poetiq trata cada respuesta como un borrador que debe mejorarse mediante autocrítica estructurada.

Autoauditoría - Saber cuándo detenerse

La capacidad más impresionante es el mecanismo de autoauditoría. El sistema determina autónomamente cuándo ha reunido suficiente información y cuándo terminar el proceso de razonamiento.

Esto no es solo una conveniencia de ingeniería - es un mecanismo económico central. Al promediar menos de dos solicitudes de LLM por problema ARC, el sistema minimiza la computación innecesaria mientras mantiene la precisión. Así es como un equipo pequeño logró resultados superiores con la mitad del costo de competidores de billones de dólares.

Lo que esto demuestra

Siguiendo al Tiny Recursive Model (TRM) y RLM, el resultado de Poetiq es la evidencia más sólida hasta ahora de que las arquitecturas de razonamiento recursivo representan un camino viable hacia la AGI.

La lección no se trata de construir modelos más grandes o ventanas de contexto más largas. Se trata de diseñar sistemas que piensen iterativamente - generando, evaluando y refinando en bucles estructurados. Cuando el proceso de razonamiento en sí se convierte en el producto, la escala bruta del modelo importa menos que el diseño de la arquitectura.

La implementación completa, los prompts y la metodología están disponibles en GitHub.

Unite al boletín

Recibí actualizaciones sobre mis últimos proyectos, artículos y experimentos con IA y desarrollo web.