अनुक्रमणिका
5 मिनट पढ़ने में

Claude Code Sub-Agents से Main Session में 25 गुना कम Tokens लगते हैं

AI कमज़ोर नहीं हो रहा। आपका main session overload हो रहा है। Sub-agents इसे lean और accurate रखते हैं — एक घंटे से भी ज़्यादा।

त्वरित सार

AI कमज़ोर नहीं हो रहा। आपका main session overload हो रहा है। Sub-agents इसे lean और accurate रखते हैं — एक घंटे से भी ज़्यादा।

एक ही शिकायत बार-बार सुनता हूँ: “Claude Code जितना ज़्यादा use करो, उतना बेकार होता जाता है।”

वजह लगभग हमेशा एक ही होती है। सब कुछ — file reads, searches, code exploration — एक ही main session में ठूँस दिया जाता है। जैसे-जैसे tokens context window में जमा होते हैं, AI शुरुआत और अंत की information तो retain करता है, लेकिन बीच में दबी हुई चीज़ें miss होने लगती हैं। अगर session simple message concatenation पर चल रहा है बजाय compaction के, तो सबसे पुराना content पूरी तरह delete हो सकता है।

Sub-agents इस equation को बदल देते हैं। काम को independent agent processes पर offload करने से, main session में आने वाले tokens उतने ही रह जाते हैं जितने otherwise होते उससे पच्चीसवाँ हिस्सा। जो sessions पहले 30 मिनट में ही खराब होने लगते थे, वो अब एक घंटे से भी ज़्यादा उसी quality पर चलते हैं।

जब यह pattern team के साथ share किया, शिकायतें बंद हो गईं।

Main Session में क्या जाता है — वही Answer की Quality तय करता है

तीन files सीधे main session में read करो, और 15,000+ tokens का raw source code context में dump हो जाता है। वही काम तीन sub-agents को दो, और हर एक 200-token summary लेकर वापस आता है। Main में total: 600 tokens।

Context window जितना बड़ा होता है, AI शुरुआत और अंत तो अच्छे से handle करता है — लेकिन बीच की information के साथ performance गिरती है। Stanford के researchers इसे “Lost in the Middle” कहते हैं: लंबे context के बीच में रखी information की retrieval accuracy 30% से ज़्यादा गिर जाती है।

Main session को lean रखने से यह problem structurally खत्म हो जाती है। एक teammate जो पहले 30 मिनट में quality degradation देखता था, अब एक घंटे से ज़्यादा बिना किसी problem के session चलाता है।

  • Inline exploration: 15,000+ tokens main में vs. agent summaries: 600 tokens
  • Sub-agents isolated context में काम करते हैं और सिर्फ ज़रूरी चीज़ें return करते हैं
  • छोटा main context मतलब कम mid-context blind spots
  • 30-मिनट की quality ceiling → 1+ घंटे के sessions उसी quality पर

General Agents से शुरू करना सबसे ज़्यादा पैसा बर्बाद करता है

चार built-in agent types हैं।

Explore read-only है और Haiku पर चलता है — तेज़ और सस्ता। Plan और General main session का model inherit करते हैं: अगर आप Sonnet पर हैं, तो वो Sonnet use करते हैं; Opus पर हैं तो Opus। Bash सिर्फ terminal commands के लिए है।

यहाँ trap यह है: बहुत लोग General को ऐसे tasks के लिए use करते हैं जिनमें सिर्फ reading चाहिए — code exploration, structure analysis, pattern searches। कम लोगों को पता है कि उन्हीं tasks के लिए Explore लगभग identical results देता है, और cost fraction भर होती है।

  • Explore (Haiku-based) General की तुलना में 80%+ बचाता है
  • General सिर्फ implementation work के लिए use करें; बाकी सब Explore से होता है
  • Plan wide-scope reads के लिए है जैसे architecture analysis
  • Bash test runs और build isolation के लिए

एक Prompt, तीन Parallel Agents, आधा Onboarding Time

Independent tasks एक साथ run हो सकते हैं। “Auth system, database schema, और API routes को अलग-अलग investigate करो” जैसा एक prompt तीन Explore agents एक साथ spin up कर देता है।

एक नए team member को जब यह pattern सिखाया, उसने codebase आधे time में समझ लिया। सिर्फ एक rule है: parallel agents जो एक ही file modify करें, उन्हें कभी साथ मत चलाओ — conflict होगा।

  • Independent tasks → parallel; dependent tasks → sequential
  • Same file में parallel edits = guaranteed conflicts
  • Prompt में “in parallel” लिखो और Claude खुद split कर देता है
  • तीन concurrent summaries main में roughly 600 tokens लेती हैं

Ctrl+B से Tests Run होते हैं और आप अगला Feature बनाते रहते हैं

Ctrl+B दबाओ और current agent background में चला जाता है। पूरा test suite run करो जबकि आप तुरंत अगला feature बनाना शुरू कर दो। इसके बिना बस progress bar देखते रहो।

Background agents सवाल नहीं पूछ सकते और MCP tools use नहीं कर सकते। उनके पास सिर्फ file read/write access है — लेकिन test runs और code reviews के लिए यही काफी है।

  • Ctrl+B current agent को background में भेजता है
  • बाद में results check करो: “Tests में क्या आया?”
  • Background agents: no MCP tools, सिर्फ file read/write
  • Code review background में चलाओ, implement करते रहो

एक Custom Agent File पाँच Tools में Reuse होती है

.claude/agents/reviewer.md पर एक file बनाओ। उसमें name, description, और model के साथ YAML frontmatter add करो — Claude Code उसे automatically pick up करता है और matching tasks उसी को route करता है।

यह file format agentskills.io standard follow करता है, यानी जो agent एक बार बनाया वो Cursor, Copilot, Codex, और Gemini CLI पर बिना किसी बदलाव के काम करता है।

npx ai-agent-skills install code-review run करो और 47 pre-built, vetted agents तुरंत download हो जाते हैं।

  • .claude/agents/ में markdown file डालो → auto-detected
  • Cheap reviews के लिए model: haiku set करो; security audits और error-handling checks के लिए opus या sonnet
  • Claude Code, Cursor, Copilot, और Codex के साथ compatible

असली Problem AI का कमज़ोर होना नहीं है

आपका AI capability नहीं खो रहा। आपका main session इतना ज़्यादा context इकट्ठा कर लेता है कि AI को सब कुछ clearly दिखना बंद हो जाता है। Sub-agents का मतलब ज़्यादा AI use करना नहीं है — इनका मतलब उस space को protect करना है जहाँ आपका AI सोचता है।

न्यूज़लेटर से जुड़ें

मेरे नवीनतम प्रोजेक्ट्स, लेखों और AI तथा वेब डेवलपमेंट प्रयोगों के बारे में अपडेट प्राप्त करें।