Codex का Compaction एक 'Encrypted Summary' था — और Session Handover असली Game-Changer है
Claude Code का context window जल्दी भर जाता है। Codex इसे कैसे handle करता था, और session handover pattern से AI coding की efficiency 10x कैसे बढ़ती है — एक गहरी पड़ताल।
त्वरित सार
Claude Code का context window जल्दी भर जाता है। Codex इसे कैसे handle करता था, और session handover pattern से AI coding की efficiency 10x कैसे बढ़ती है — एक गहरी पड़ताल।
Claude Code को थोड़ी देर इस्तेमाल करो तो “Compacting conversation…” का message जरूर आता है। उसके बाद जवाब भटकने लगते हैं और response time बढ़ जाता है। 200K token का context window उतनी जल्दी भर जाता है जितना कोई सोचता नहीं।
काफी समय से यह बात चल रही थी कि OpenAI का Codex इस problem को ज्यादा smartly handle करता है, तो मैंने जितने भी public analyses मिले उन्हें खंगाल डाला।
Summarization का मतलब फिर भी भूलना है
जब conversation लंबी हो जाती है, AI का पुरानी बातें भूलना एक structural limitation है। Context window 200K tokens पर cap होती है, और एक बड़ा coding session आराम से उसे पार कर जाता है। Summarization के बाद भी original conversation चली जाती है — accuracy गिरना तय है।
मैंने खुद दर्जनों बार यह झेला है: compaction के बाद “वो function जो हमने पहले discuss किया था” पूछो, तो बिल्कुल गलत जवाब मिलता है।
- Claude Code की default 200K token window एक बड़े refactoring session में ही खत्म हो जाती है
- Summary original की जगह लेती है → detailed context गायब → answer quality गिरती है
- Tool call results का summaries में flat हो जाना सबसे ज्यादा नुकसानदेह होता है
Codex का Compaction था एक “Encrypted Summary”
Krafton के CAIO Kangwook Lee ने दो prompt injections की मदद से Codex का internal pipeline reverse-engineer किया, और नतीजे काफी दिलचस्प थे।
जब Codex model की compact() API call होती है, तो server पर एक अलग LLM conversation को summarize करता है और उसे AES-encrypted करके return करता है। अगली turn पर यह encrypted blob decrypt होता है, एक handoff prompt के साथ जो कहता है “यहाँ पिछली conversation का summary है,” और model को feed होता है।
- Open-source Codex CLI के non-codex models वाले compaction prompt से content लगभग identical थी
- Encryption की वजह अभी तक unclear है — शायद tool call restoration data होता है
- 35 lines के Python में reproduce किया जा सकता है (script Kangwook Lee ने publish की)
- OpenAI का official API
compact_thresholdsetting के जरिए server-side automatic compaction support करता है
असली फर्क Session Handover में है
Compaction से भी ज्यादा interesting है cross-session context transfer। एक developer की automation काफी impressive थी — मैं इसे “session handover” pattern कहता हूँ।
Compaction से ठीक पहले write tools block हो जाते हैं और JSONL session log से सिर्फ user messages और thinking blocks निकाले जाते हैं। इससे original के मुकाबले volume 98% कम हो जाता है। फिर तीन sub-agents original logs में search करके summary में gaps ढूंढते हैं और सब कुछ एक resume-prompt.md file में compile करते हैं।
जब VS Code का file watcher यह file detect करता है, एक नया session automatically खुलता है और पिछले context को seamlessly inherit करता है।
- Pre-compact hook compaction से पहले writes block करता है → incomplete state में code modifications नहीं होते
- JSONL से MD conversion में सिर्फ user messages + system messages + thinking blocks बचते हैं
- Sub-agents gap analysis करते हैं और original logs से missing information retrieve करते हैं
- Build efficiency में 10x सुधार reported किया गया
असली Game है Session Log Search और KV Cache
Session data JSONL files के रूप में जमा होता रहता है, इसलिए deciding factor यह है कि आप उनसे जरूरी context कितने accurately retrieve कर सकते हो। जवाब बेहतर summarization नहीं है — पुराने sessions में retrieval-based search है।
KV cache hit rates को factor करो, और आप same prompt prefix reuse करके cost और response latency दोनों एक साथ घटा सकते हो। जब मैंने अपना session folder structure design किया, तो session-id-based archiving का search speed पर सबसे ज्यादा असर पड़ा। QMD — जो मैंने कल cover किया था — को pre-indexing के लिए integrate करना भी एक promising direction लगता है।
- Raw JSONL preserve करने से जरूरत पड़ने पर precise search possible होती है
resume-prompt.mdमें पिछला session summary + gap analysis results + modified files की list होती है- System prompt और handoff prompt prefix fix करने से KV cache hits maximize होते हैं
- Session archiving automation दर्जनों consecutive sessions में context maintain रखती है
AI Coding की असली Bottleneck है Context Management
AI coding tools में असली bottleneck model performance नहीं है — context management है। जो भूला गया उसे retrieve करने वाला system design करना, summarization को perfect करने से ज्यादा मायने रखता है।
Compaction हमेशा कुछ न कुछ खोती है। जो matter करता है वह है एक ऐसा search pipeline बनाना जो खोई हुई information retrieve कर सके, और एक ऐसा handover architecture जो sessions के बीच context बिना gaps के transfer करे।
Kangwook Lee, CAIO के analysis पर आधारित।
न्यूज़लेटर से जुड़ें
मेरे नवीनतम प्रोजेक्ट्स, लेखों और AI तथा वेब डेवलपमेंट प्रयोगों के बारे में अपडेट प्राप्त करें।