Passei um fim de semana inteiro jogando mais de 100MB de PDFs num agente. A performance piorou. Só quando mapeei o que estava alimentando em quatro categorias é que entendi o porquê.
Alguém fez benchmark de uma reimplementação do SQLite em Rust escrita por um LLM. A diferença entre código que parece certo e código que é certo foi de cinco ordens de magnitude.
Fiz engenharia reversa de como o Codex trata overflow de contexto comparado ao Claude Code. A resposta envolve criptografia AES, padrões de session handover e truques de KV cache.
Dados recentes de benchmark mostram que arquivos de contexto como AGENTS.md e CLAUDE.md prejudicam o desempenho de agentes de código. Às vezes, a preguiça é a melhor decisão de engenharia.
O método mais barato de melhorar o desempenho de um LLM, validado pelo Google Research em 7 modelos. Sem treinamento extra, sem engenharia de prompt. Só copiar e colar.
O que os resultados do Terminal Bench da LangChain e os experimentos com o formato hashline revelaram. Por que o ranking do leaderboard se inverteu com o mesmo modelo: prompt, ferramentas e middleware foram os três fatores decisivos.
OpenAI fecha acordo bilionário com a Cerebras, Nvidia adquire a Groq e Google TPU firma contratos com Anthropic e Meta. Entenda por que a era dos agentes está redesenhando o mapa dos semicondutores.
Enquanto o mercado levanta alarmes sobre excesso de capacidade de GPU, a OpenAI declara: precisamos de mais computação. O gargalo real não está onde você imagina.
O Claude Opus 4.5 da Anthropic não apenas bateu benchmarks. Ele prova que apostar tudo em texto, código e agentes enquanto os concorrentes se dispersam é a jogada vencedora.
O meta-sistema recursivo da Poetiq se tornou o primeiro a superar 50% no ARC-AGI-2, o benchmark projetado para testar verdadeira inteligência geral. Veja como uma equipe de 6 pessoas superou o Google pela metade do custo.
Uma janela de contexto maior não torna a IA mais inteligente. O RLM muda o jogo ao permitir que LLMs escrevam código para ler seletivamente documentos massivos.