Índice
3 min de leitura

IA Se Aproxima do Raciocínio Humano Pela Primeira Vez - Poetiq Ultrapassa 50% no ARC-AGI-2

O meta-sistema recursivo da Poetiq se tornou o primeiro a superar 50% no ARC-AGI-2, o benchmark projetado para testar verdadeira inteligência geral. Veja como uma equipe de 6 pessoas superou o Google pela metade do custo.

A Poetiq acaba de fazer história no benchmark ARC-AGI.

O ARC-AGI é o teste projetado para avaliar se uma IA possui verdadeira inteligência geral. Ele não pede que os modelos regurgitem dados de treinamento. Em vez disso, apresenta problemas de padrões completamente novos e exige que o sistema infira as regras subjacentes por conta própria. Humanos alcançam em média cerca de 60% de precisão. Até agora, sistemas de IA ficavam bem aquém dessa marca.

Por Que o Resultado da Poetiq Importa

  • Primeira a ultrapassar 50% no ARC-AGI-2 - oficialmente verificada pela ARC Prize Foundation com 54% de precisão
  • Metade do custo do estado da arte anterior - US$ 30,57 por problema versus US$ 77,16 do Gemini 3 Deep Think
  • Uma equipe de 6 pessoas com 53 anos de experiência combinada do Google DeepMind superou os maiores laboratórios de IA
  • Abordagem totalmente open-source com prompts disponíveis no GitHub

Para contextualizar, os principais modelos de IA pontuaram abaixo de 5% no ARC-AGI-2 no início de 2025. O salto de menos de 5% para mais de 50% em meses sinaliza que algo fundamental mudou.

A Arquitetura - Raciocínio Recursivo em Vez de Escala Bruta

A inovação central é um meta-sistema que não treina novos modelos. Em vez disso, ele orquestra LLMs existentes através de loops iterativos de raciocínio.

O sistema gera uma solução candidata, a critica, analisa o feedback e usa o LLM para refinar a resposta. Repete. O prompt é apenas a interface - a verdadeira inteligência emerge desse processo iterativo de refinamento.

Isso é uma ruptura deliberada com o prompting chain-of-thought padrão. Em vez de perguntar uma vez e aceitar a saída, o sistema da Poetiq trata cada resposta como um rascunho a ser melhorado através de autocrítica estruturada.

Auto-Auditoria - Saber Quando Parar

A capacidade mais impressionante é o mecanismo de auto-auditoria. O sistema determina autonomamente quando coletou informação suficiente e quando encerrar o processo de raciocínio.

Isso não é apenas uma conveniência de engenharia - é um mecanismo econômico central. Ao fazer em média menos de duas requisições de LLM por problema ARC, o sistema minimiza computação desnecessária enquanto mantém a precisão. É assim que uma equipe pequena alcançou resultados superiores pela metade do custo de competidores trilionários.

O Que Isso Prova

Seguindo o Tiny Recursive Model (TRM) e o RLM, o resultado da Poetiq é a evidência mais forte até agora de que arquiteturas de raciocínio recursivo representam um caminho viável em direção à AGI.

A lição não é sobre construir modelos maiores ou janelas de contexto mais longas. É sobre projetar sistemas que pensam iterativamente - gerando, avaliando e refinando em loops estruturados. Quando o próprio processo de raciocínio se torna o produto, a escala bruta do modelo importa menos do que o design da arquitetura.

A implementação completa, prompts e metodologia estão disponíveis no GitHub.

Assine a newsletter

Receba atualizações sobre meus projetos mais recentes, artigos e experimentos com IA e desenvolvimento web.