वह छिपा हुआ टूल जो AI एजेंट वेब ब्राउज़िंग टोकन लागत को 100 गुना कम करता है
ब्राउज़र एजेंट की गति और टोकन लागत की समस्याओं को हल करने के लिए Actionbook के क्रांतिकारी दृष्टिकोण की खोज करें। मैनुअल-आधारित ऑटोमेशन 10 गुना गति और 1/100 लागत प्रदान करता है।
ईमानदारी से, मैं शुरुआत में संशयवादी था।
हर बार जब मैं एजेंटों के साथ वेब ब्राउज़िंग ऑटोमेशन चलाता था, तो इसमें बहुत समय लगता था, और टोकन्स को पिघलते देखकर मुझे लगता था “क्या यह ऐसे ही काम करता है?” एक से अधिक बार मैंने सोचा, “शायद मुझे यह खुद करना चाहिए।”
लेकिन हाल ही में, Actionbook नामक एक ओपन-सोर्स टूल को एकीकृत करने के बाद, मेरा दृष्टिकोण पूरी तरह से बदल गया।
ब्राउज़र एजेंट धीमे क्यों हैं
आज अधिकांश एजेंट फ्रेमवर्क पूरे पेज के DOM को LLM को फीड करते हैं। वे संदर्भ विंडो को भर देते हैं और फिर भी अक्सर उस बटन को नहीं खोज पाते जिस पर उन्हें क्लिक करना है। यह ऐसा है जैसे एजेंट अंधेरे में अंधे होकर टटोल रहा हो।
प्रमुख समस्याएं
- Airbnb पर एक खोज DOM ट्री से हजारों टोकन्स खपत करती है
- GPT-5 के लिए, एक पेज को पार्स करने से संदर्भ विंडो का 60% से अधिक हिस्सा भर जाता है
- जब साइट UI बदलती है, तो सेलेक्टर्स टूट जाते हैं और आपको पूरे एजेंट लॉजिक को फिर से लिखना पड़ता है
- जटिल DOM संरचनाओं का सामना करने पर LLM हैलुसिनेट करते हैं (गलत एक्शन धारणाएं बनाते हैं)
Actionbook का क्रांतिकारी दृष्टिकोण
Vercel के agent-browser के ऊपर बनाया गया, यह प्रोजेक्ट एक अलग दृष्टिकोण अपनाता है।
यह प्रत्येक वेबसाइट के लिए पूर्व-संगठित एक्शन मैनुअल और DOM सेलेक्टर्स को JSON में संकुचित करता है और उन्हें LLM संदर्भ में डालता है। उसके बाद, एजेंट बिना खोज के सीधे कार्य कर सकता है।
मैंने व्यक्तिगत रूप से उनके उदाहरणों में दिखाए गए Airbnb खोज परिदृश्य का परीक्षण किया, और अनुभव की गई गति लगभग 10 गुना तेज थी।
मुख्य लाभ
- पूर्ण HTML के बजाय संकुचित JSON का उपयोग करके टोकन उपयोग 1/100 तक कम हो गया
- जब साइटें बदलती हैं, तो बस मैनुअल अपडेट करें जबकि एजेंट कोड अक्षुण्ण रहता है
- किसी भी LLM के साथ संगत: GPT-5.3-Codex, Claude Opus 4.6, Gemini 3 Pro
- संस्करण-नियंत्रित मैनुअल ऑटोमेशन टूटने की आवृत्ति को काफी कम करते हैं
उत्पादन के लिए Rust संस्करण बेहतर है
जबकि Actionbook में TypeScript संस्करण है, मैं Rust-आधारित actionbook-rs की सिफारिश करता हूं। बाइनरी 7.8 MB है और स्टार्टअप समय 5 ms है। Node.js संस्करण 150 MB से अधिक है और शुरू होने में 500 ms से अधिक समय लगता है।
साथ ही, यह आपके मौजूदा Chrome या Brave इंस्टॉलेशन का उपयोग करता है, इसलिए अलग से ब्राउज़र इंस्टॉलेशन की आवश्यकता नहीं है।
actionbook-rs के लाभ
- बाइनरी 7.8 MB बनाम TypeScript संस्करण 150 MB
- स्टार्टअप समय 5 ms बनाम 500~800 ms
- शून्य रनटाइम निर्भरताएं, CI/CD पाइपलाइनों के लिए तैयार
- अंतर्निहित स्टील्थ मोड और कुकी प्रबंधन
स्किल के रूप में पंजीकरण से स्थिरता में सुधार होता है
एकबारगी उपयोग के बजाय, इसे Claude Code जैसे कोडिंग एजेंटों में स्किल के रूप में पंजीकृत करने से आप समान गुणवत्ता स्तर पर वेब कार्यों को लगातार स्वचालित कर सकते हैं।
मैंने बार-बार परीक्षण किए और स्किल पंजीकरण से पहले और बाद में कार्य सफलता दरों में महत्वपूर्ण अंतर पाया। पंजीकरण से पहले, 5 में से 2 कार्य विफल हो रहे थे; बाद में, विफलताएं शून्य के करीब पहुंच गईं।
वास्तविक प्रभाव
- Claude Code स्किल के रूप में पंजीकरण से वेब ऑटोमेशन गुणवत्ता स्थिर बनी रहती है (और भी प्रभावी क्योंकि यह हेडलेस नहीं है)
- बार-बार कार्यों के साथ, मैनुअल-आधारित दृष्टिकोण खोज-आधारित की तुलना में अधिक स्थिर साबित होते हैं
निष्कर्ष
आप अपने एजेंट को वेब कैसे दिखाते हैं यह ऑटोमेशन गुणवत्ता निर्धारित करता है। पूरे DOM को आंख मूंदकर फेंकने का युग समाप्त हो गया है।
महत्वपूर्ण नोट
यह विकास परीक्षण के लिए नहीं है। यह वेब ब्राउज़िंग ऑटोमेशन के लिए अनुकूलित है। दूसरे शब्दों में, यह OpenClaw जैसे टूल्स के साथ उपयोग के लिए उत्कृष्ट है। विकास परीक्षण के लिए, मैं Playwright, Chrome Dev, या agent-browser के साथ बने रहने की सिफारिश करता हूं।
संदर्भ
न्यूज़लेटर से जुड़ें
मेरे नवीनतम प्रोजेक्ट्स, लेखों और AI तथा वेब डेवलपमेंट प्रयोगों के बारे में अपडेट प्राप्त करें।