# El resumen cifrado de Codex y el traspaso entre sesiones: cómo manejar el contexto en serio

> Author: Tony Lee
> Published: 2026-03-05
> URL: https://tonylee.im/es-LA/blog/codex-compaction-encrypted-summary-session-handover/
> Reading time: 5 minutes
> Language: es-LA
> Tags: claude-code, codex, context-window, compaction, ai-coding, session-management

## Description

Cómo Codex maneja la compactación con resúmenes cifrados AES, y por qué el verdadero reto en el desarrollo con IA es transferir contexto entre sesiones sin perder nada.

## Content

Si usás Claude Code el tiempo suficiente, vas a toparse con el mensaje "Compacting conversation...". Después de eso, las respuestas empiezan a desviarse y los tiempos de espera se disparan. La ventana de contexto de 200K tokens se llena mucho más rápido de lo que uno esperaría.

Había mucho ruido sobre que Codex de OpenAI resuelve este problema de forma más inteligente, así que me puse a revisar todo el análisis público que encontré.

## Resumir sigue siendo olvidar

Cuando las conversaciones se vuelven largas, que la IA olvide las partes anteriores es una limitación estructural. La ventana de contexto tiene un tope de 200K tokens, y una sola sesión de programación lo supera con facilidad. Incluso con la summarización, la conversación original desaparece — la precisión inevitablemente cae.

Lo he experimentado decenas de veces: preguntar por "esa función que discutimos antes" después de la compactación, y recibir una respuesta completamente incorrecta.

- La ventana de 200K tokens de Claude Code se consume en una sola sesión de refactorización grande
- El resumen reemplaza el original → se pierde el contexto detallado → la calidad de las respuestas baja
- Que los resultados de las tool calls queden aplanados en los resúmenes es especialmente devastador

## La compactación de Codex era un "resumen cifrado"

Kangwook Lee, CAIO de Krafton, hizo ingeniería inversa del pipeline interno de Codex usando dos inyecciones de prompt, y los resultados fueron fascinantes.

Cuando se llama la API `compact()` del modelo de Codex, un LLM separado en el servidor resume la conversación y devuelve el resultado cifrado con AES. En el turno siguiente, ese blob cifrado se descifra, se le agrega un prompt de handoff que dice "acá va un resumen de la conversación anterior", y se le pasa al modelo.

- El contenido es casi idéntico al prompt de compactación del Codex CLI de código abierto para modelos que no son codex
- El motivo del cifrado no está claro — posiblemente contiene datos de restauración de tool calls
- Reproducible en 35 líneas de Python (script publicado por Kangwook Lee)
- La API oficial de OpenAI soporta compactación automática del lado del servidor mediante la configuración `compact_threshold`

## La diferencia real está en cómo se traspasan las sesiones

Más interesante que la compactación en sí es la transferencia de contexto entre sesiones. La automatización de un desarrollador me pareció muy buena — lo llamo el patrón de "session handover".

Justo antes de la compactación, se bloquean las write tools y solo se extraen los mensajes del usuario y los thinking blocks del log JSONL de la sesión. Esto reduce el volumen un 98% respecto al original. Luego tres sub-agentes buscan los vacíos en el resumen revisando los logs originales y compilan todo en un archivo `resume-prompt.md`.

Cuando el file watcher de VS Code detecta ese archivo, abre automáticamente una nueva sesión que hereda el contexto anterior sin interrupciones.

- El hook pre-compact bloquea las escrituras antes de la compactación → evita modificaciones de código en estado incompleto
- La conversión de JSONL a MD preserva solo mensajes de usuario + mensajes del sistema + thinking blocks
- Los sub-agentes hacen análisis de brechas y recuperan información faltante de los logs originales
- Se reportó una mejora de 10x en la eficiencia del build

## El juego real está en buscar logs de sesión y el KV cache

Los datos de sesión se acumulan como archivos JSONL, así que el factor decisivo es qué tan bien podés recuperar el contexto que necesitás de ellos. La respuesta no es mejor summarización — es búsqueda por recuperación a través de sesiones pasadas.

Si además considerás las tasas de hit del KV cache, podés reusar el mismo prefijo de prompt para reducir tanto el costo como la latencia de respuesta al mismo tiempo. Cuando diseñé mi propia estructura de carpetas de sesión, el archivado basado en session-id fue lo que más impactó en la velocidad de búsqueda. Integrar QMD — que cubrí ayer — para pre-indexado también parece una dirección prometedora.

- Preservar el JSONL crudo permite búsquedas precisas cuando se necesita
- El `resume-prompt.md` incluye el resumen de la sesión anterior + resultados del análisis de brechas + lista de archivos modificados
- Fijar el prefijo del system prompt y del handoff prompt maximiza los hits del KV cache
- La automatización del archivado de sesiones mantiene el contexto a través de decenas de sesiones consecutivas

## El verdadero cuello de botella en el desarrollo con IA es el manejo del contexto

El verdadero cuello de botella en las herramientas de desarrollo con IA no es el rendimiento del modelo — es el manejo del contexto. Diseñar un sistema que recupere lo que se olvidó importa más que perfeccionar la summarización.

La compactación inevitablemente pierde información. Lo que importa es construir tanto un pipeline de búsqueda que pueda recuperar la información perdida como una arquitectura de handover que transfiera el contexto entre sesiones sin brechas.

*Basado en el análisis de [Kangwook Lee, CAIO](https://lnkd.in/gPw8uipE).*

---

Author: Tony Lee | Website: https://tonylee.im
For more articles, visit: https://tonylee.im/es-LA/blog/
This content is original and authored by Tony Lee. Please attribute when quoting or referencing.