अनुक्रमणिका

LLM और प्रॉम्प्टिंग

बड़े भाषा मॉडल, प्रॉम्प्ट इंजीनियरिंग और बेंचमार्किंग।

11 posts

चार Contexts जो तय करते हैं कि AI आपका समय बचाएगा या बर्बाद करेगा

एक पूरा weekend 100MB से ज़्यादा PDFs एक agent में ठूंसने में बिताया। Performance बेहतर होने की बजाय और बिगड़ गई। जब मैंने उन सभी inputs को चार categories में बांटा, तब जाकर समझ आया क्यों।

6.7% से 68.3% सफलता दर: 10x का फ़र्क मॉडल ने नहीं, harness ने बनाया

LangChain के Terminal Bench नतीजों और hashline फ़ॉर्मेट प्रयोग ने क्या दिखाया। एक ही मॉडल से leaderboard रैंकिंग क्यों पलट गई: prompt, टूल्स और middleware तीन निर्णायक कारण थे।

AI चिप का नक्शा बदल गया - 2026 में एजेंट्स ने सेमीकंडक्टर इंडस्ट्री को नए सिरे से तराशा

Nvidia GPU अब काफ़ी नहीं रहा। OpenAI-Cerebras डील, Nvidia की Groq खरीदारी, और Google TPU कॉन्ट्रैक्ट्स - inference युग ने चिप इंडस्ट्री का पूरा गणित बदल दिया।

AI युद्ध में जीत 'फोकस' से हुई - Anthropic के Opus 4.5 ने रणनीति के बारे में क्या साबित किया

Anthropic का Claude Opus 4.5 सिर्फ बेंचमार्क तोड़ने से कहीं आगे है। यह साबित करता है कि जब प्रतिस्पर्धी बिखरे हुए हैं, तब टेक्स्ट, कोड और एजेंट्स पर ऑल-इन करना ही जीतने का तरीका है।

AI ने पहली बार मानवीय तर्कशक्ति की ओर कदम बढ़ाया - Poetiq ने ARC-AGI-2 पर 50% की सीमा तोड़ी

Poetiq की recursive meta-system ARC-AGI-2 पर 50% पार करने वाली पहली प्रणाली बनी, जो सच्ची सामान्य बुद्धिमत्ता की परीक्षा के लिए डिज़ाइन किया गया benchmark है। जानिए कैसे 6 लोगों की टीम ने आधी लागत में Google को पीछे छोड़ दिया।

LLM से कोड लिखवाकर 10 मिलियन टोकन पढ़वाना - RLM कैसे काम करता है

बड़ी कॉन्टेक्स्ट विंडो AI को स्मार्ट नहीं बनाती। RLM एक नया तरीका है जहाँ LLM कोड लिखकर विशाल दस्तावेज़ों से चुनिंदा जानकारी पढ़ता है।