# Como o Codex lida com o limite de contexto: resumos criptografados e handover entre sessões > Author: Tony Lee > Published: 2026-03-05 > URL: https://tonylee.im/pt/blog/codex-compaction-encrypted-summary-session-handover/ > Reading time: 4 minutes > Language: pt > Tags: claude-code, codex, context-window, compaction, ai-coding, session-management ## Description Uma análise aprofundada de como o Codex trata compactação de contexto com resumos AES-criptografados e como desenvolvedores constroem pipelines de handover entre sessões para não perder nada. ## Content Use o Claude Code por tempo suficiente e você vai esbarrar na mensagem "Compacting conversation...". Depois disso, as respostas começam a desviar do assunto e os tempos de espera disparam. A janela de contexto de 200K tokens esgota muito mais rápido do que parece. Corria muito a ideia de que o Codex da OpenAI resolvia esse problema de forma mais inteligente — então fui atrás de toda análise pública que consegui encontrar. ## Resumir ainda significa esquecer Quando as conversas ficam longas, o esquecimento de partes anteriores é uma limitação estrutural das IAs. A janela de contexto tem um teto de 200K tokens, e uma única sessão de programação ultrapassa isso com facilidade. Mesmo com sumarização, a conversa original desaparece — e a qualidade das respostas cai inevitavelmente. Já vivi isso dezenas de vezes: perguntar sobre "aquela função que discutimos antes" depois de uma compactação e receber uma resposta completamente errada. - A janela padrão de 200K tokens do Claude Code some em uma única sessão de refatoração pesada - O resumo substitui o original → contexto detalhado perdido → qualidade das respostas piora - Os resultados de chamadas de ferramentas que são achatados nos resumos são especialmente devastadores ## A compactação do Codex era um "resumo criptografado" Kangwook Lee, CAIO da Krafton, fez engenharia reversa do pipeline interno do Codex usando duas injeções de prompt — e os resultados foram fascinantes. Quando a API `compact()` do modelo Codex é chamada, um LLM separado no servidor sumariza a conversa e retorna o resultado criptografado com AES. No próximo turno, esse blob criptografado é decriptado, prefixado com um prompt de handoff dizendo "aqui está um resumo da conversa anterior", e entregue ao modelo. - Conteúdo quase idêntico ao prompt de compactação do Codex CLI open-source para modelos não-codex - O motivo da criptografia ainda é nebuloso — possivelmente contém dados de restauração de chamadas de ferramentas - Reproduzível em 35 linhas de Python (script publicado pelo próprio Kangwook Lee) - A API oficial da OpenAI suporta compactação automática no servidor via a configuração `compact_threshold` ## A diferença real está no handover entre sessões Mais interessante do que a compactação em si é a transferência de contexto entre sessões. A automação que um desenvolvedor criou foi impressionante — chamo de padrão "session handover". Logo antes da compactação, ferramentas de escrita são bloqueadas e somente mensagens do usuário e blocos de thinking são extraídos do log de sessão JSONL. Isso reduz o volume em 98% em relação ao original. Em seguida, três sub-agentes identificam lacunas no resumo buscando nos logs originais e compilam tudo em um arquivo `resume-prompt.md`. Quando o file watcher do VS Code detecta esse arquivo, uma nova sessão abre automaticamente e herda o contexto anterior sem nenhuma quebra. - Hook pré-compactação bloqueia escritas antes da compactação → evita modificações de código em estado incompleto - Conversão JSONL → MD preserva apenas mensagens do usuário + mensagens do sistema + blocos de thinking - Sub-agentes fazem análise de lacunas e recuperam informações faltantes dos logs originais - Melhoria de 10x em eficiência de build relatada ## O jogo real é busca em logs de sessão e KV cache Os dados de sessão se acumulam como arquivos JSONL, então o fator decisivo é com que precisão você consegue recuperar o contexto necessário a partir deles. A resposta não é sumarização melhor — é busca baseada em recuperação entre sessões passadas. Levando em conta as taxas de hit do KV cache, dá para reutilizar o mesmo prefixo de prompt e cortar custo e latência de resposta ao mesmo tempo. Quando estruturei meu próprio sistema de pastas de sessão, o arquivamento baseado em session-id teve o maior impacto na velocidade de busca. Integrar o QMD — que abordei ontem — para pré-indexação também parece uma direção promissora. - Preservar o JSONL bruto permite buscas precisas quando necessário - `resume-prompt.md` inclui resumo da sessão anterior + análise de lacunas + lista de arquivos modificados - Fixar o system prompt e o prefixo do handoff prompt maximiza os hits de KV cache - Automação de arquivamento de sessões mantém contexto ao longo de dezenas de sessões consecutivas ## O verdadeiro gargalo no desenvolvimento com IA é gestão de contexto O gargalo real nas ferramentas de programação com IA não é o desempenho do modelo — é a gestão de contexto. Projetar um sistema que recupere o que foi esquecido importa mais do que aperfeiçoar a sumarização. A compactação inevitavelmente perde informação. O que importa é construir tanto um pipeline de busca capaz de recuperar o que foi perdido quanto uma arquitetura de handover que transfira contexto entre sessões sem lacunas. *Baseado na análise de [Kangwook Lee, CAIO](https://lnkd.in/gPw8uipE).* --- Author: Tony Lee | Website: https://tonylee.im For more articles, visit: https://tonylee.im/pt/blog/ This content is original and authored by Tony Lee. Please attribute when quoting or referencing.