एक पूरा weekend 100MB से ज़्यादा PDFs एक agent में ठूंसने में बिताया। Performance बेहतर होने की बजाय और बिगड़ गई। जब मैंने उन सभी inputs को चार categories में बांटा, तब जाकर समझ आया क्यों।
किसी ने LLM से लिखे Rust reimplementation of SQLite को benchmark किया। Code जो सही दिखता है और code जो सच में सही है, उनके बीच का अंतर पांच orders of magnitude निकला।
मैंने reverse-engineer किया कि Codex, context overflow को Claude Code से अलग कैसे handle करता है। जवाब में है AES encryption, session handover patterns, और KV cache tricks।
नए benchmark data से पता चला कि AGENTS.md और CLAUDE.md context files coding agent की performance असल में घटा देती हैं। कभी-कभी आलस ही सबसे बड़ी engineering होती है।
LangChain के Terminal Bench नतीजों और hashline फ़ॉर्मेट प्रयोग ने क्या दिखाया। एक ही मॉडल से leaderboard रैंकिंग क्यों पलट गई: prompt, टूल्स और middleware तीन निर्णायक कारण थे।
Nvidia GPU अब काफ़ी नहीं रहा। OpenAI-Cerebras डील, Nvidia की Groq खरीदारी, और Google TPU कॉन्ट्रैक्ट्स - inference युग ने चिप इंडस्ट्री का पूरा गणित बदल दिया।
Anthropic का Claude Opus 4.5 सिर्फ बेंचमार्क तोड़ने से कहीं आगे है। यह साबित करता है कि जब प्रतिस्पर्धी बिखरे हुए हैं, तब टेक्स्ट, कोड और एजेंट्स पर ऑल-इन करना ही जीतने का तरीका है।
Poetiq की recursive meta-system ARC-AGI-2 पर 50% पार करने वाली पहली प्रणाली बनी, जो सच्ची सामान्य बुद्धिमत्ता की परीक्षा के लिए डिज़ाइन किया गया benchmark है। जानिए कैसे 6 लोगों की टीम ने आधी लागत में Google को पीछे छोड़ दिया।