Sub-Agentes do Claude Code Economizam 25x Tokens na Sessão Principal
Sua IA não está ficando mais burra. Sua sessão principal está sobrecarregada. Sub-agentes mantêm tudo enxuto e preciso por mais de uma hora.
Resumo rápido
Sua IA não está ficando mais burra. Sua sessão principal está sobrecarregada. Sub-agentes mantêm tudo enxuto e preciso por mais de uma hora.
Fico ouvindo sempre a mesma reclamação: “O Claude Code vai piorando quanto mais tempo eu uso.”
A causa é quase sempre a mesma. Tudo — leitura de arquivos, buscas, exploração de código — vai sendo empilhado em uma única sessão principal. Conforme os tokens se acumulam na janela de contexto, a IA retém informações do começo e do fim, mas começa a perder o que está enterrado no meio. Se a sessão depende de simples concatenação de mensagens em vez de compactação, o conteúdo mais antigo pode ser descartado por completo.
Os sub-agentes mudam essa equação. Ao delegar trabalho para processos de agentes independentes, os tokens que chegam à sua sessão principal podem cair para um vigésimo quinto do que seriam de outra forma. Sessões que costumavam degradar depois de 30 minutos agora se sustentam por mais de uma hora no mesmo nível de qualidade.
Depois de compartilhar esse padrão com o time, as reclamações desapareceram.
O Que Chega à Sessão Principal Determina a Qualidade das Respostas
Leia três arquivos diretamente na sessão principal e você despeja mais de 15.000 tokens de código-fonte bruto no seu contexto. Delegue o mesmo trabalho para três sub-agentes e cada um retorna um resumo de 200 tokens. Total: 600 tokens na sessão principal.
Quanto maior cresce a janela de contexto, melhor a IA lida com o início e o fim — mas pior ela lida com as informações do meio. Pesquisadores de Stanford chamam isso de “Lost in the Middle”: a precisão na recuperação de informações colocadas no meio de um contexto longo cai mais de 30%.
Manter a sessão principal enxuta elimina esse problema de forma estrutural. Um colega que costumava ver a qualidade cair depois de 30 minutos agora roda sessões por mais de uma hora sem problemas.
- Exploração inline: mais de 15.000 tokens na sessão principal vs. resumos via agente: 600 tokens
- Sub-agentes trabalham em contexto isolado e retornam apenas o essencial
- Um contexto principal menor significa menos pontos cegos no meio
- Teto de qualidade de 30 minutos → sessões de 1h+ com a mesma qualidade
Começar com Agentes General Desperdiça Mais Dinheiro
Existem quatro tipos de agentes nativos.
Explore é somente leitura e roda em Haiku — rápido e barato. Plan e General herdam o modelo da sessão principal: se você está no Sonnet, eles usam Sonnet; se Opus, usam Opus. Bash é exclusivo para comandos de terminal.
Aqui está a armadilha: muita gente usa General para tarefas que exigem apenas leitura — exploração de código, análise de estrutura, buscas de padrões. Poucos percebem que o Explore produz resultados praticamente idênticos para essas tarefas com uma fração do custo.
- Explore (baseado em Haiku) economiza mais de 80% comparado ao General
- Use General apenas para trabalho de implementação; o Explore cuida do resto
- Plan é para leituras de escopo amplo como análise de arquitetura
- Bash é para isolar execuções de testes e builds
Um Prompt, Três Agentes em Paralelo, Metade do Tempo de Onboarding
Tarefas independentes podem rodar simultaneamente. Um único prompt como “Investigue o sistema de autenticação, o schema do banco de dados e as rotas de API separadamente” sobe três agentes Explore ao mesmo tempo.
Um novo membro do time para quem ensinei esse padrão terminou de entender a base de código em metade do tempo. A única regra: nunca rode agentes em paralelo que modificam o mesmo arquivo — eles vão conflitar.
- Tarefas independentes → paralelo; tarefas dependentes → sequencial
- Edições no mesmo arquivo em paralelo = conflitos garantidos
- Adicione “em paralelo” ao seu prompt e o Claude divide automaticamente
- Três resumos simultâneos ocupam cerca de 600 tokens na sessão principal
Ctrl+B Deixa Você Começar o Próximo Feature Enquanto os Testes Rodam
Pressione Ctrl+B e o agente atual vai para o segundo plano. Rode sua suite completa de testes enquanto você já começa a construir o próximo feature. Sem isso, você fica só olhando para uma barra de progresso.
Agentes em segundo plano não conseguem fazer perguntas e não têm acesso a ferramentas MCP. Eles só têm acesso de leitura e escrita em arquivos — mas isso é suficiente para rodar testes e revisar código.
- Ctrl+B manda o agente atual para o segundo plano
- Confira os resultados depois: “O que os testes retornaram?”
- Agentes em segundo plano: sem ferramentas MCP, apenas leitura e escrita de arquivos
- Rode revisão de código em segundo plano enquanto continua implementando
Um Arquivo de Agente Customizado Reutilizável em Cinco Ferramentas
Crie um único arquivo em .claude/agents/reviewer.md. Adicione um frontmatter YAML com nome, descrição e modelo — o Claude Code detecta automaticamente e roteia as tarefas correspondentes para ele.
Esse formato de arquivo segue o padrão do agentskills.io, o que significa que os agentes que você constrói uma vez funcionam no Cursor, Copilot, Codex e Gemini CLI sem modificação.
Execute npx ai-agent-skills install code-review para baixar instantaneamente 47 agentes pré-construídos e validados.
- Coloque um arquivo markdown em
.claude/agents/→ detectado automaticamente - Defina
model: haikupara revisões baratas; useopusousonnetpara auditorias de segurança e verificações de tratamento de erros - Compatível com Claude Code, Cursor, Copilot e Codex
O Problema Real Não É a IA Ficando Mais Burra
Sua IA não está perdendo capacidade. Sua sessão principal está acumulando contexto demais para conseguir enxergar tudo com clareza. Sub-agentes não significam usar mais IA — significam proteger o espaço onde sua IA pensa.
Assine a newsletter
Receba atualizações sobre meus projetos mais recentes, artigos e experimentos com IA e desenvolvimento web.