LLM e prompting

Grandes modelos de linguagem, engenharia de prompts e benchmarking.

11 artigos

26 de mar. de 2026

Quatro Contextos Que Decidem Se a IA Vai Te Ajudar ou Desperdiçar Seu Tempo

Passei um fim de semana inteiro jogando mais de 100MB de PDFs num agente. A performance piorou. Só quando mapeei o que estava alimentando em quatro categorias é que entendi o porquê.

12 de mar. de 2026

570 Mil Linhas de Código Gerado por LLM Compilaram Perfeitamente. Era 20.171x Mais Lento que o SQLite.

Alguém fez benchmark de uma reimplementação do SQLite em Rust escrita por um LLM. A diferença entre código que parece certo e código que é certo foi de cinco ordens de magnitude.

5 de mar. de 2026

Como o Codex resolve o problema de compactação

Fiz engenharia reversa de como o Codex trata overflow de contexto comparado ao Claude Code. A resposta envolve criptografia AES, padrões de session handover e truques de KV cache.

25 de fev. de 2026

Era Preguiçoso Demais para Escrever o CLAUDE.md — E Parece Que Foi a Decisão Certa

Dados recentes de benchmark mostram que arquivos de contexto como AGENTS.md e CLAUDE.md prejudicam o desempenho de agentes de código. Às vezes, a preguiça é a melhor decisão de engenharia.

20 de fev. de 2026

Colei o prompt duas vezes e a precisão mudou

O método mais barato de melhorar o desempenho de um LLM, validado pelo Google Research em 7 modelos. Sem treinamento extra, sem engenharia de prompt. Só copiar e colar.

18 de fev. de 2026

De 6,7% para 68,3% de taxa de sucesso: foi o harness, não o modelo, que fez a diferença de 10x

O que os resultados do Terminal Bench da LangChain e os experimentos com o formato hashline revelaram. Por que o ranking do leaderboard se inverteu com o mesmo modelo: prompt, ferramentas e middleware foram os três fatores decisivos.

8 de fev. de 2026

O mapa dos chips de IA acabou de ser redesenhado - agentes mudaram tudo em 2026

OpenAI fecha acordo bilionário com a Cerebras, Nvidia adquire a Groq e Google TPU firma contratos com Anthropic e Meta. Entenda por que a era dos agentes está redesenhando o mapa dos semicondutores.

8 de fev. de 2026

O Paradoxo do Flywheel de IA: A Aposta da OpenAI em Mais Computação em Meio a Temores de Supercapacidade

Enquanto o mercado levanta alarmes sobre excesso de capacidade de GPU, a OpenAI declara: precisamos de mais computação. O gargalo real não está onde você imagina.

8 de fev. de 2026

A guerra da IA foi vencida pelo foco - O que o Opus 4.5 da Anthropic prova sobre estratégia

O Claude Opus 4.5 da Anthropic não apenas bateu benchmarks. Ele prova que apostar tudo em texto, código e agentes enquanto os concorrentes se dispersam é a jogada vencedora.

8 de fev. de 2026

IA Se Aproxima do Raciocínio Humano Pela Primeira Vez - Poetiq Ultrapassa 50% no ARC-AGI-2

O meta-sistema recursivo da Poetiq se tornou o primeiro a superar 50% no ARC-AGI-2, o benchmark projetado para testar verdadeira inteligência geral. Veja como uma equipe de 6 pessoas superou o Google pela metade do custo.

8 de fev. de 2026

Fazer um LLM escrever código para ler 10 milhões de tokens - Como funciona o RLM

Uma janela de contexto maior não torna a IA mais inteligente. O RLM muda o jogo ao permitir que LLMs escrevam código para ler seletivamente documentos massivos.