# Cómo Codex gestiona la compactación: resúmenes cifrados y transferencia de sesiones

> Author: Tony Lee
> Published: 2026-03-05
> URL: https://tonylee.im/es/blog/codex-compaction-encrypted-summary-session-handover/
> Reading time: 5 minutes
> Language: es
> Tags: claude-code, codex, context-window, compaction, ai-coding, session-management

## Description

Análisis técnico de cómo Codex maneja la compactación del contexto mediante resúmenes cifrados AES y un sistema de transferencia de sesiones que minimiza la pérdida de información.

## Content

Usa Claude Code el tiempo suficiente y acabarás viendo el mensaje "Compacting conversation...". A partir de ahí, las respuestas empiezan a desviarse y los tiempos de espera se disparan. La ventana de contexto de 200K tokens se llena antes de lo que cabría esperar.

Corría el rumor de que el Codex de OpenAI resuelve este problema de forma más inteligente, así que me puse a revisar todos los análisis públicos que encontré.

## Resumir sigue siendo olvidar

Que la IA pierda el hilo de conversaciones largas es una limitación estructural. La ventana de contexto tiene un límite de 200K tokens, y una sola sesión de programación puede superarlo con facilidad. Aunque se use un resumen, la conversación original desaparece y la precisión cae inevitablemente.

Lo he vivido en persona decenas de veces: después de una compactación, preguntas por "aquella función que mencionamos antes" y te devuelve una respuesta completamente equivocada.

- La ventana de 200K tokens de Claude Code se agota en una sola sesión de refactorización grande
- El resumen reemplaza al original → se pierde el contexto detallado → baja la calidad de las respuestas
- El aplanamiento de los resultados de llamadas a herramientas en los resúmenes es especialmente dañino

## La compactación de Codex era un "resumen cifrado"

Kangwook Lee, CAIO en Krafton, hizo ingeniería inversa del pipeline interno de Codex con dos inyecciones de prompt, y los resultados fueron fascinantes.

Cuando se llama a la API `compact()` del modelo Codex, un LLM separado en el servidor resume la conversación y devuelve el resultado cifrado con AES. En el siguiente turno, ese blob cifrado se descifra, se le antepone un prompt de traspaso que dice "aquí tienes un resumen de la conversación anterior" y se le pasa al modelo.

- El contenido es casi idéntico al prompt de compactación del Codex CLI de código abierto para modelos que no son Codex
- El motivo del cifrado no está claro — posiblemente contiene datos de restauración de llamadas a herramientas
- Reproducible en 35 líneas de Python (script publicado por Kangwook Lee)
- La API oficial de OpenAI soporta compactación automática en el servidor mediante el parámetro `compact_threshold`

## La diferencia real está en cómo se traspasa el contexto entre sesiones

Más interesante que la compactación en sí es la transferencia de contexto entre sesiones. La automatización de un desarrollador me pareció muy destacable — lo llamo el patrón de "traspaso de sesión".

Justo antes de la compactación, se bloquean las herramientas de escritura y solo se extraen los mensajes del usuario y los bloques de pensamiento del log de sesión en JSONL. Esto reduce el volumen un 98% respecto al original. Después, tres sub-agentes detectan los huecos en el resumen buscando en los logs originales y lo compilan todo en un archivo `resume-prompt.md`.

Cuando el file watcher de VS Code detecta ese archivo, se abre automáticamente una nueva sesión que hereda el contexto anterior sin interrupciones.

- El hook pre-compact bloquea las escrituras antes de la compactación → evita modificaciones de código en un estado incompleto
- La conversión JSONL → MD conserva solo mensajes del usuario + mensajes del sistema + bloques de pensamiento
- Los sub-agentes realizan un análisis de huecos y recuperan la información faltante de los logs originales
- Se reporta una mejora de 10x en la eficiencia de compilación

## El verdadero juego está en la búsqueda de logs de sesión y la KV cache

Los datos de sesión se acumulan como archivos JSONL, así que el factor determinante es con qué precisión puedes recuperar el contexto que necesitas de ellos. La solución no es mejorar el resumen — es hacer búsqueda por recuperación entre sesiones pasadas.

Si además tienes en cuenta las tasas de acierto de la KV cache, puedes reutilizar el mismo prefijo de prompt para reducir a la vez el coste y la latencia de respuesta. Cuando diseñé mi propia estructura de carpetas de sesión, el archivado basado en session-id tuvo el mayor impacto en la velocidad de búsqueda. Integrar QMD — del que hablé ayer — para la preindexación parece también una dirección prometedora.

- Conservar el JSONL en bruto permite búsquedas precisas cuando se necesitan
- El `resume-prompt.md` incluye el resumen de la sesión anterior + resultados del análisis de huecos + lista de archivos modificados
- Fijar el system prompt y los prefijos del prompt de traspaso maximiza los aciertos de la KV cache
- La automatización del archivado de sesiones mantiene el contexto a lo largo de decenas de sesiones consecutivas

## El verdadero cuello de botella en la programación con IA es la gestión del contexto

El auténtico cuello de botella en las herramientas de programación con IA no es el rendimiento del modelo — es la gestión del contexto. Diseñar un sistema que recupere lo olvidado importa más que perfeccionar el resumen.

La compactación inevitablemente pierde información. Lo que importa es construir tanto un pipeline de búsqueda que pueda recuperar la información perdida como una arquitectura de traspaso que transfiera el contexto entre sesiones sin huecos.

*Basado en el análisis de [Kangwook Lee, CAIO](https://lnkd.in/gPw8uipE).*

---

Author: Tony Lee | Website: https://tonylee.im
For more articles, visit: https://tonylee.im/es/blog/
This content is original and authored by Tony Lee. Please attribute when quoting or referencing.