IA Se Aproxima do Raciocínio Humano Pela Primeira Vez - Poetiq Ultrapassa 50% no ARC-AGI-2
O meta-sistema recursivo da Poetiq se tornou o primeiro a superar 50% no ARC-AGI-2, o benchmark projetado para testar verdadeira inteligência geral. Veja como uma equipe de 6 pessoas superou o Google pela metade do custo.
A Poetiq acaba de fazer história no benchmark ARC-AGI.
O ARC-AGI é o teste projetado para avaliar se uma IA possui verdadeira inteligência geral. Ele não pede que os modelos regurgitem dados de treinamento. Em vez disso, apresenta problemas de padrões completamente novos e exige que o sistema infira as regras subjacentes por conta própria. Humanos alcançam em média cerca de 60% de precisão. Até agora, sistemas de IA ficavam bem aquém dessa marca.
Por Que o Resultado da Poetiq Importa
- Primeira a ultrapassar 50% no ARC-AGI-2 - oficialmente verificada pela ARC Prize Foundation com 54% de precisão
- Metade do custo do estado da arte anterior - US$ 30,57 por problema versus US$ 77,16 do Gemini 3 Deep Think
- Uma equipe de 6 pessoas com 53 anos de experiência combinada do Google DeepMind superou os maiores laboratórios de IA
- Abordagem totalmente open-source com prompts disponíveis no GitHub
Para contextualizar, os principais modelos de IA pontuaram abaixo de 5% no ARC-AGI-2 no início de 2025. O salto de menos de 5% para mais de 50% em meses sinaliza que algo fundamental mudou.
A Arquitetura - Raciocínio Recursivo em Vez de Escala Bruta
A inovação central é um meta-sistema que não treina novos modelos. Em vez disso, ele orquestra LLMs existentes através de loops iterativos de raciocínio.
O sistema gera uma solução candidata, a critica, analisa o feedback e usa o LLM para refinar a resposta. Repete. O prompt é apenas a interface - a verdadeira inteligência emerge desse processo iterativo de refinamento.
Isso é uma ruptura deliberada com o prompting chain-of-thought padrão. Em vez de perguntar uma vez e aceitar a saída, o sistema da Poetiq trata cada resposta como um rascunho a ser melhorado através de autocrítica estruturada.
Auto-Auditoria - Saber Quando Parar
A capacidade mais impressionante é o mecanismo de auto-auditoria. O sistema determina autonomamente quando coletou informação suficiente e quando encerrar o processo de raciocínio.
Isso não é apenas uma conveniência de engenharia - é um mecanismo econômico central. Ao fazer em média menos de duas requisições de LLM por problema ARC, o sistema minimiza computação desnecessária enquanto mantém a precisão. É assim que uma equipe pequena alcançou resultados superiores pela metade do custo de competidores trilionários.
O Que Isso Prova
Seguindo o Tiny Recursive Model (TRM) e o RLM, o resultado da Poetiq é a evidência mais forte até agora de que arquiteturas de raciocínio recursivo representam um caminho viável em direção à AGI.
A lição não é sobre construir modelos maiores ou janelas de contexto mais longas. É sobre projetar sistemas que pensam iterativamente - gerando, avaliando e refinando em loops estruturados. Quando o próprio processo de raciocínio se torna o produto, a escala bruta do modelo importa menos do que o design da arquitetura.
A implementação completa, prompts e metodologia estão disponíveis no GitHub.
Assine a newsletter
Receba atualizações sobre meus projetos mais recentes, artigos e experimentos com IA e desenvolvimento web.