Opencode Docs से सीखें AI एजेंट डिज़ाइन के 7 बिल्डिंग ब्लॉक्स
Opencode का ओपन-सोर्स डॉक्यूमेंटेशन एजेंट आर्किटेक्चर की शुरुआती गाइड की तरह काम करता है। यहाँ हैं वो सात मूल अवधारणाएँ जो हर डेवलपर को समझनी चाहिए।
Opencode Claude Code के बाद डेवलपर्स के बीच सबसे ज़्यादा चर्चित AI कोडिंग टूल बनता जा रहा है। कोरिया में Oh-my-opencode की बदौलत इसका इस्तेमाल तेज़ी से बढ़ा है, और दुनिया भर की डेवलपर कम्युनिटीज़ इस पर नज़र रख रही हैं।
लेकिन Opencode की असली कीमत सिर्फ़ कोडिंग में मदद नहीं है। ओपन सोर्स होने की वजह से आप एजेंट की डिज़ाइन को बारीकी से देख सकते हैं - टूल रजिस्ट्रेशन से लेकर सब-एजेंट ऑर्केस्ट्रेशन तक। ओपन-सोर्स प्रोजेक्ट्स को कम्युनिटी के डेवलपर्स के योगदान का फ़ायदा मिलता है, जिसका मतलब है कि डॉक्यूमेंटेशन में एजेंट आर्किटेक्चर की सबसे ताज़ा सोच झलकती है।
Opencode के docs का Configure सेक्शन एजेंट डिज़ाइन की इंट्रोडक्टरी टेक्स्टबुक जैसा पढ़ा जाता है। यहाँ वो सात बिल्डिंग ब्लॉक्स हैं जो इसमें सामने आते हैं, और हर एक क्यों मायने रखता है।
Tools: एजेंट दुनिया से कैसे बातचीत करते हैं
Tools परिभाषित करते हैं कि एजेंट क्या कर सकता है। हर टूल एक अलग क्षमता है - फ़ाइल पढ़ना, फ़ाइल लिखना, टर्मिनल कमांड चलाना, वेब सर्च करना - जो एक कॉल करने योग्य फंक्शन के रूप में रजिस्टर होती है।
- आप जो टूल्स देते हैं, वो एजेंट की क्षमता की सीमा तय करते हैं
- टूल्स लैंग्वेज मॉडल और बाहरी वातावरण के बीच का इंटरफ़ेस हैं
- मेरे अनुभव में, एजेंट को बहुत ज़्यादा टूल्स देना उल्टा पड़ता है: वो कौन सा टूल इस्तेमाल करे इसका फ़ैसला करने में ज़्यादा वक्त लगाता है बजाय असल में काम करने के
डिज़ाइन सिद्धांत सीधा है: बिना टूल्स के एजेंट बस एक चैटबॉट है। सही टूल्स वाला एजेंट एक स्वायत्त वर्कर बन जाता है।
Rules (AGENTS.md): एजेंट के व्यवहार के दिशानिर्देश
AGENTS.md एक फ़ाइल फ़ॉर्मेट है जो एजेंट को प्रोजेक्ट-विशिष्ट संदर्भ और प्रतिबंध प्रदान करता है। इसे इंसानों की बजाय AI के लिए लिखा गया README समझिए।
- इसमें “बिना टेस्ट के कोड में बदलाव मत करो” या “इस फ़ोल्डर स्ट्रक्चर का पालन करो” जैसे निर्देश होते हैं
- AGENTS.md स्टैंडर्ड पहले से 60,000 से ज़्यादा ओपन-सोर्स प्रोजेक्ट्स में अपनाया जा चुका है
- नियम एजेंट के फ़ैसले लेने के तरीके को आकार देते हैं, बिना अंतर्निहित मॉडल को बदले
नियमों के बिना, एजेंट अपनी सामान्य ट्रेनिंग को आपके विशिष्ट प्रोजेक्ट पर लागू करता है। नियमों के साथ, वो आपके प्रोजेक्ट की परंपराओं, प्रतिबंधों और प्राथमिकताओं को लागू करता है। अंतर काफ़ी बड़ा है।
Agents (सब-एजेंट्स): बाँटो और जीतो
जटिल कामों को एक जनरलिस्ट एजेंट की बजाय कई विशेषज्ञ एजेंट्स में बाँटना ज़्यादा फ़ायदेमंद होता है।
- आप भूमिका-विशिष्ट एजेंट्स परिभाषित कर सकते हैं: Build, Plan, Review, Debug वगैरह
- मुख्य एजेंट योजना बनाता है; सब-एजेंट्स अलग-अलग चरण पूरे करते हैं
- हर सब-एजेंट एक केंद्रित संदर्भ में काम करता है, जिससे लंबे सिंगल-एजेंट सेशन्स में होने वाला शोर और भटकाव कम होता है
यह वही सिद्धांत है जो माइक्रोसर्विसेज़ का है, AI वर्कफ़्लो पर लागू किया गया। विशेषज्ञता गुणवत्ता सुधारती है, और अलगाव संदर्भ प्रदूषण रोकता है।
MCP (Model Context Protocol): बाहरी कनेक्शन का मानक
Model Context Protocol Anthropic द्वारा बनाया गया एक ओपन प्रोटोकॉल है जो एजेंट्स के बाहरी डेटा स्रोतों और सेवाओं से जुड़ने के तरीके को मानकीकृत करता है।
- डेटाबेस, फ़ाइल सिस्टम, API और अन्य इंटीग्रेशन के लिए एक सुसंगत इंटरफ़ेस प्रदान करता है
- हर सर्विस के लिए कस्टम एडैप्टर लिखने की बजाय, MCP एजेंट्स को बाहर तक पहुँचने का एकीकृत तरीका देता है
- MCP लेयर पर बनी सर्विस एप्लिकेशन्स का बढ़ता हुआ इकोसिस्टम अपेक्षित है
MCP एक वास्तविक इंटरऑपरेबिलिटी समस्या हल करता है। पहले, हर एजेंट फ़्रेमवर्क बाहरी टूल्स से कनेक्ट करने का अपना तरीका ईजाद करता था। MCP उन कनेक्शन्स को पोर्टेबल और कंपोज़ेबल बनाता है।
LSP (Language Server Protocol): कोड समझने की नींव
Language Server Protocol मूल रूप से IDE के लिए डिज़ाइन किया गया था, लेकिन यह उन AI एजेंट्स के लिए भी उतना ही मूल्यवान साबित हुआ है जिन्हें कोडबेस में नेविगेट करना होता है।
- LSP गो-टू-डेफ़िनिशन, फ़ाइंड-रेफ़रेंसेज़, ऑटो-कम्प्लीशन और डायग्नोस्टिक्स प्रदान करता है
- Opencode में LSP इंटीग्रेशन अभी प्रायोगिक है, लेकिन यह कोड नेविगेशन की सटीकता में काफ़ी सुधार करता है
- पूरी तरह टेक्स्ट सर्च पर निर्भर रहने की बजाय, एजेंट LSP का उपयोग करके कोड की संरचना को अर्थपूर्ण रूप से समझ सकते हैं
जो एजेंट फंक्शन कॉल को उसकी डेफ़िनिशन तक ट्रेस कर सकता है, सभी रेफ़रेंसेज़ ढूँढ सकता है, और टाइप हायरार्की समझ सकता है - वो उस एजेंट से बुनियादी तौर पर अलग स्तर पर काम करता है जो सिर्फ़ स्ट्रिंग्स पर पैटर्न मैचिंग करता है।
A2A और ACP: एजेंट-टू-एजेंट कम्युनिकेशन के मानक
जब एजेंट्स अलग-अलग फ़्रेमवर्क से बने होते हैं, तो उन्हें सहयोग के लिए एक साझा प्रोटोकॉल चाहिए। इस कमी को पूरा करने के लिए दो मानक उभर रहे हैं।
- A2A (Agent-to-Agent): Google ने बनाया और Linux Foundation को दान किया। यह परिभाषित करता है कि एजेंट्स एक-दूसरे को कैसे खोजते हैं, क्षमताओं पर कैसे बातचीत करते हैं, और संदेश कैसे आदान-प्रदान करते हैं
- ACP (Agent Communication Protocol): BeeAI टीम ने बनाया और हाल ही में A2A प्रयास में शामिल हुआ
दोनों शुरुआती चरण में हैं, लेकिन ये मल्टी-एजेंट सिस्टम्स की नींव का प्रतिनिधित्व करते हैं जहाँ अलग-अलग वेंडर्स और फ़्रेमवर्क के एजेंट्स बिना रुकावट एक साथ काम करते हैं। इसकी उपमा वेब के लिए HTTP है - एक साझा ट्रांसपोर्ट लेयर जो सब कुछ इंटरऑपरेबल बनाती है।
Skills: पुन: उपयोग योग्य क्षमता पैकेज
Agent Skills टूल्स, नियम और प्रॉम्प्ट्स को एक इंस्टॉल करने योग्य यूनिट में बंडल करता है। Anthropic द्वारा पहली बार पेश किया गया यह फ़ॉर्मेट अब मानकीकृत हो चुका है।
- एजेंट किसी विशिष्ट क्षमता की ज़रूरत होने पर स्किल लोड करता है - जैसे कोड रिव्यू, TDD वर्कफ़्लो, या सिक्योरिटी एनालिसिस
- स्किल्स प्रोजेक्ट्स और टीमों के बीच साझा किए जा सकते हैं, जो पुन: उपयोग योग्य एजेंट व्यवहारों का इकोसिस्टम बनाता है
- यह डॉक्यूमेंटेशन की खपत से स्किल्स की खपत की ओर बदलाव का संकेत है: कुछ करने का तरीका पढ़ने की बजाय, करने की क्षमता इंस्टॉल करें
स्किल्स एजेंट्स के लिए वही हैं जो पैकेजेज़ एप्लिकेशन्स के लिए हैं। ये विशेषज्ञता को मॉड्यूलर और वितरण योग्य बनाते हैं।
निष्कर्ष
प्रभावी AI एजेंट्स बनाना हर उपलब्ध टूल जानने के बारे में नहीं है। यह आर्किटेक्चर समझने के बारे में है: एजेंट्स कैसे सोचते हैं, बाहरी दुनिया से कैसे जुड़ते हैं, और एक-दूसरे के साथ कैसे सहयोग करते हैं।
ये सात बिल्डिंग ब्लॉक्स - Tools, Rules, सब-एजेंट्स, MCP, LSP, A2A/ACP, और Skills - एजेंट डिज़ाइन की संरचनात्मक शब्दावली बनाते हैं। हर एक एक अलग चिंता को संबोधित करता है, और मिलकर ये परिभाषित करते हैं कि एक अच्छी तरह से आर्किटेक्ट किया गया एजेंट सिस्टम कैसा दिखता है।
चूँकि Opencode ओपन सोर्स है, इसका डॉक्यूमेंटेशन डेवलपर कम्युनिटी के योगदान के साथ विकसित होता रहता है। अगर आप एजेंट आर्किटेक्चर को गंभीरता से समझना चाहते हैं, तो Opencode docs पढ़ने लायक हैं।
न्यूज़लेटर से जुड़ें
मेरे नवीनतम प्रोजेक्ट्स, लेखों और AI तथा वेब डेवलपमेंट प्रयोगों के बारे में अपडेट प्राप्त करें।