LLM और प्रॉम्प्टिंग

बड़े भाषा मॉडल, प्रॉम्प्ट इंजीनियरिंग और बेंचमार्किंग।

11 पोस्ट

26 मार्च 2026

चार Contexts जो तय करते हैं कि AI आपका समय बचाएगा या बर्बाद करेगा

एक पूरा weekend 100MB से ज़्यादा PDFs एक agent में ठूंसने में बिताया। Performance बेहतर होने की बजाय और बिगड़ गई। जब मैंने उन सभी inputs को चार categories में बांटा, तब जाकर समझ आया क्यों।

12 मार्च 2026

570,000 Lines का LLM Code Compile हुआ। Performance SQLite से 20,171 गुना धीमी थी।

किसी ने LLM से लिखे Rust reimplementation of SQLite को benchmark किया। Code जो सही दिखता है और code जो सच में सही है, उनके बीच का अंतर पांच orders of magnitude निकला।

5 मार्च 2026

Codex Compaction को Differently Solve कैसे करता है

मैंने reverse-engineer किया कि Codex, context overflow को Claude Code से अलग कैसे handle करता है। जवाब में है AES encryption, session handover patterns, और KV cache tricks।

25 फ़र॰ 2026

CLAUDE.md लिखने में आलस किया — और यही सही निकला

नए benchmark data से पता चला कि AGENTS.md और CLAUDE.md context files coding agent की performance असल में घटा देती हैं। कभी-कभी आलस ही सबसे बड़ी engineering होती है।

20 फ़र॰ 2026

प्रॉम्प्ट को दो बार पेस्ट किया और सटीकता बदल गई

Google Research ने 7 मॉडल पर जांचा हुआ LLM प्रदर्शन सुधारने का सबसे सस्ता तरीका। न अतिरिक्त ट्रेनिंग, न प्रॉम्प्ट डिज़ाइन। बस कॉपी-पेस्ट।

18 फ़र॰ 2026

6.7% से 68.3% सफलता दर: 10x का फ़र्क मॉडल ने नहीं, harness ने बनाया

LangChain के Terminal Bench नतीजों और hashline फ़ॉर्मेट प्रयोग ने क्या दिखाया। एक ही मॉडल से leaderboard रैंकिंग क्यों पलट गई: prompt, टूल्स और middleware तीन निर्णायक कारण थे।

8 फ़र॰ 2026

AI चिप का नक्शा बदल गया - 2026 में एजेंट्स ने सेमीकंडक्टर इंडस्ट्री को नए सिरे से तराशा

Nvidia GPU अब काफ़ी नहीं रहा। OpenAI-Cerebras डील, Nvidia की Groq खरीदारी, और Google TPU कॉन्ट्रैक्ट्स - inference युग ने चिप इंडस्ट्री का पूरा गणित बदल दिया।

8 फ़र॰ 2026

AI फ्लाईव्हील विरोधाभास: अधिक क्षमता की आशंकाओं के बीच OpenAI का कंप्यूट पर दांव

जब बाजार GPU की अधिक क्षमता की चिंता कर रहा है, तब OpenAI कह रहा है हमें और कंप्यूट चाहिए। असली अड़चन कहीं और है।

8 फ़र॰ 2026

AI युद्ध में जीत 'फोकस' से हुई - Anthropic के Opus 4.5 ने रणनीति के बारे में क्या साबित किया

Anthropic का Claude Opus 4.5 सिर्फ बेंचमार्क तोड़ने से कहीं आगे है। यह साबित करता है कि जब प्रतिस्पर्धी बिखरे हुए हैं, तब टेक्स्ट, कोड और एजेंट्स पर ऑल-इन करना ही जीतने का तरीका है।

8 फ़र॰ 2026

AI ने पहली बार मानवीय तर्कशक्ति की ओर कदम बढ़ाया - Poetiq ने ARC-AGI-2 पर 50% की सीमा तोड़ी

Poetiq की recursive meta-system ARC-AGI-2 पर 50% पार करने वाली पहली प्रणाली बनी, जो सच्ची सामान्य बुद्धिमत्ता की परीक्षा के लिए डिज़ाइन किया गया benchmark है। जानिए कैसे 6 लोगों की टीम ने आधी लागत में Google को पीछे छोड़ दिया।

8 फ़र॰ 2026

LLM से कोड लिखवाकर 10 मिलियन टोकन पढ़वाना - RLM कैसे काम करता है

बड़ी कॉन्टेक्स्ट विंडो AI को स्मार्ट नहीं बनाती। RLM एक नया तरीका है जहाँ LLM कोड लिखकर विशाल दस्तावेज़ों से चुनिंदा जानकारी पढ़ता है।