चार Contexts जो तय करते हैं कि AI आपका समय बचाएगा या बर्बाद करेगा
एक पूरा weekend 100MB से ज़्यादा PDFs एक agent में ठूंसने में बिताया। Performance बेहतर होने की बजाय और बिगड़ गई। जब मैंने उन सभी inputs को चार categories में बांटा, तब जाकर समझ आया क्यों।
एक पूरा weekend मैंने 100MB से ज़्यादा PDFs parse करने में लगाया। सोच यह थी कि agent को जितना ज़्यादा knowledge दो, उतना बेहतर output मिलेगा। मैं गलत था।
कई दिनों की frustration के बाद मैंने एक graph बनाया और जो कुछ भी feed कर रहा था उसे चार categories में बांटा। समस्या तुरंत साफ हो गई। मात्रा कभी असल मुद्दा नहीं थी। Context का प्रकार मायने रखता था।
Model को वह दोबारा देना जो वह पहले से जानता है, चीज़ें बिगाड़ता है
LLMs trillions of tokens पर train होते हैं। जब आप वही जानकारी prompt में paste करते हैं, तो वे redundant tokens context window में जगह घेरते हैं और attention को उन चीज़ों से हटा देते हैं जो असल में ज़रूरी हैं। जो information आपने model की मदद के लिए add की, वही उसे limit करने लगती है।
मैंने इसे सीधे test किया। Python syntax और basic React patterns को prompts में ठूंसने से model अपनी training के साथ ही conflict करने लगा और बिना किसी context के मिलने वाले output से भी अजीब results देने लगा। इस तरह का redundant information जमा करते जाओ तो “context rot” होती है, जहाँ model के responses धीरे-धीरे degraded होते जाते हैं। यह intuition कि “ज़्यादा input मतलब ज़्यादा smart output” - prompt engineering का सबसे खतरनाक trap है।
Environment context ही वह एकमात्र type है जिसे model खुद infer नहीं कर सकता
Project directory structure, team conventions, internal API schemas। इनमें से कुछ भी training data में नहीं होता, और model के पास इन्हें बिना explicit input के समझने का कोई तरीका नहीं है। यही वह category है जहाँ context वाकई अपना हक साबित करता है।
Environment context capture करने वाले tools अभी किसी भी अन्य area से तेज़ गति से evolve हो रहे हैं। Document OCR का काम एक साथ कई देशों में चल रहा है: Upstage और Korea Deep Learning, Mistral France में, Sarvam India में, Baidu और Zhipu और DeepSeek और यहाँ तक कि Xiaohongshu China में। Voice, जो कभी सबसे volatile medium था, उसे भी capture किया जा रहा है। Granola जैसे meeting note tools उन conversations को preserve करते हैं जो पहले call खत्म होते ही गायब हो जाती थीं। Typeless, Wispr Flow, और Willow thoughts को real time में text में convert करते हैं। Browser activity, ambient visual input, वो चीज़ें जिन पर आप बिना सोचे नज़र डालते हैं, वो सब पहले से structured context बनती जा रही हैं।
बदलाव साफ है: जो information पहले evaporate हो जाती थी, वह अब models के उपयोग के लिए convert होती जा रही है।
जानना और execute करना, इन दोनों के बीच की खाई ही लोगों को अलग करती है
Environment context model को बताता है कि क्या exists करता है। Skills बताती हैं कि काम कैसे करना है, किस क्रम में, और किस standard तक। Knowledge store करना और verify करना कोई भी कर सकता है। लेकिन जैसे ही आप structured execution add करते हैं, यानी reasoning के आधार पर sequences define करना, तब लोगों के बीच का अंतर बढ़ने लगता है।
एक अच्छी skill definition सिर्फ instruction list नहीं होती। उसमें छह चीज़ें होती हैं: discipline, “done” की definition, task decomposition, defect patching के तरीके, anti-patterns, और environment adaptation। सभी tasks को एक ही skill में ठूंसना हमेशा fail होता है। काम को granular skills में तोड़ना और उन्हें AGENTS.md जैसे workflow files के ज़रिए compose करना ही agents को flexibly चलने देता है। यहाँ तक कि rough hint-level notes को भी /skill-creator जैसे tools से instantly skills में convert किया जा सकता है।
यहाँ design perspective सबसे ज़्यादा मायने रखता है। Intermediate files save करना, execute करने से पहले analyze करना, verification criteria define करना: ये decisions तय करते हैं कि कोई agent succeed करेगा या fail। MCP के बजाय scripts prefer करना एक lesson है जो मैंने theory से नहीं, production use से सीखा। और skills use के साथ sharpen होती हैं। Agent को comparison examples दो और वह अपना execution खुद optimize करता है।
मैं मानता हूँ कि skill design सही करने में मुझे उम्मीद से ज़्यादा वक्त लगा। शुरुआती कुछ attempts या तो बहुत broad थे (agent ने आधे instructions ignore किए) या बहुत rigid (task में ज़रा सा variation आने पर adapt नहीं कर पाया)। वह sweet spot, जो guide करने के लिए काफी specific हो लेकिन flex करने के लिए काफी loose भी हो, real iteration से मिला।
Intent और taste ही वजह है कि identical setups से अलग-अलग results मिलते हैं
दस साल से ज़्यादा समय तक लोगों को काम करते हुए देखने के बाद, एक pattern बार-बार सामने आता है। Knowledge collect करना और verify करना हर कोई करता है। General knowledge अब AI के पास किसी भी इंसान से ज़्यादा volume में है। Skills repetition से जमा होती हैं। फिर भी exactly same model use करने वाले लोग wildly different results produce करते हैं।
Vibe coding का output देखिए। कुछ लोगों का काम “यह कैसे बनाया?” जैसी reaction trigger करता है। दूसरों का काम चुप्पी में डूब जाता है। फर्क वहाँ है जो default AI aesthetics स्वीकार कर लेता है और जो किसी specific vision के लिए push करता है। Information को जल्दी catch करना और उसे किसी particular intent के through filter करना, ये दो बिल्कुल अलग abilities हैं। दूसरी के लिए audience का perspective और पूरा surrounding context consider करना पड़ता है, यानी एक higher-order kind of thinking।
Model नहीं जानता कि आप क्या चाहते हैं। आपको उसे express करने की capability होनी चाहिए। इसीलिए AI era में taste, knowledge से भारी पड़ता है।
जो चीज़ जितनी automate करना मुश्किल है, उसके पीछे खड़े इंसान की value उतनी ज़्यादा है
General knowledge पहले से AI के पास है। Prompts में और ज़्यादा डालने से actively नुकसान होता है। Environment context को OCR और voice tools तेज़ी से capture कर रहे हैं। Skills repetition और structure से build होती हैं और agents को delegate की जा सकती हैं। Intent और taste ही वह एकमात्र category है जो automation का पूरी तरह से विरोध करती है।
AI tools और information इकट्ठा करना ज़रूरी है। लेकिन असली leverage वहाँ नहीं है। Prompts में और ज़्यादा context ठूंसने के बजाय, बेहतर यह है कि आप ज़्यादा precision के साथ जानें कि आप चाहते क्या हैं। AI era में आपकी value आपके taste में रहती है।
न्यूज़लेटर से जुड़ें
मेरे नवीनतम प्रोजेक्ट्स, लेखों और AI तथा वेब डेवलपमेंट प्रयोगों के बारे में अपडेट प्राप्त करें।