AI ने पहली बार मानवीय तर्कशक्ति की ओर कदम बढ़ाया - Poetiq ने ARC-AGI-2 पर 50% की सीमा तोड़ी
Poetiq की recursive meta-system ARC-AGI-2 पर 50% पार करने वाली पहली प्रणाली बनी, जो सच्ची सामान्य बुद्धिमत्ता की परीक्षा के लिए डिज़ाइन किया गया benchmark है। जानिए कैसे 6 लोगों की टीम ने आधी लागत में Google को पीछे छोड़ दिया।
Poetiq ने अभी ARC-AGI benchmark पर इतिहास रच दिया है।
ARC-AGI वह परीक्षण है जो यह मापने के लिए बनाया गया है कि क्या AI के पास वास्तविक सामान्य बुद्धिमत्ता है। यह models से training data को दोहराने के लिए नहीं कहता। इसके बजाय, यह पूरी तरह से नए pattern की समस्याएं प्रस्तुत करता है और system को स्वयं अंतर्निहित नियमों का अनुमान लगाने की आवश्यकता होती है। मनुष्य औसतन लगभग 60% सटीकता हासिल करते हैं। अब तक, AI systems उस मानक से काफी पीछे थे।
Poetiq का परिणाम क्यों महत्वपूर्ण है
- ARC-AGI-2 पर 50% तोड़ने वाली पहली प्रणाली - ARC Prize Foundation द्वारा 54% सटीकता पर आधिकारिक रूप से सत्यापित
- पिछली state of the art की आधी लागत - $30.57 प्रति समस्या बनाम Gemini 3 Deep Think का $77.16
- 6 लोगों की टीम जिसके पास Google DeepMind से 53 साल का संयुक्त अनुभव है, ने सबसे बड़ी AI labs को पीछे छोड़ दिया
- पूरी तरह से open-sourced approach और prompts GitHub पर उपलब्ध हैं
संदर्भ के लिए, 2025 की शुरुआत में अग्रणी AI models ने ARC-AGI-2 पर 5% से कम स्कोर किया। महीनों में 5% से कम से 50% से अधिक तक की छलांग यह संकेत देती है कि कुछ मौलिक बदल गया है।
आर्किटेक्चर - Raw Scale के बजाय Recursive Reasoning
मूल नवाचार एक meta-system है जो नए models को train नहीं करता। इसके बजाय, यह मौजूदा LLMs को reasoning के iterative loops के माध्यम से व्यवस्थित करता है।
System एक candidate solution उत्पन्न करता है, उसकी आलोचना करता है, feedback का विश्लेषण करता है, और उत्तर को परिष्कृत करने के लिए LLM का उपयोग करता है। दोहराएं। Prompt केवल interface है - असली बुद्धिमत्ता इस iterative refinement प्रक्रिया से उभरती है।
यह standard chain-of-thought prompting से जानबूझकर हटकर है। एक बार पूछने और output को स्वीकार करने के बजाय, Poetiq की system प्रत्येक उत्तर को एक draft के रूप में देखती है जिसे structured self-critique के माध्यम से सुधारा जा सकता है।
Self-Auditing - कब रुकना है यह जानना
सबसे प्रभावशाली क्षमता self-auditing mechanism है। System स्वायत्त रूप से निर्धारित करता है कि उसने पर्याप्त जानकारी कब एकत्र कर ली है और reasoning प्रक्रिया को कब समाप्त करना है।
यह केवल एक engineering सुविधा नहीं है - यह एक मुख्य आर्थिक तंत्र है। प्रति ARC समस्या औसतन दो से कम LLM requests करके, system सटीकता बनाए रखते हुए अनावश्यक computation को कम करता है। इसी तरह एक छोटी टीम ने trillion-dollar प्रतिस्पर्धियों की आधी लागत पर बेहतर परिणाम हासिल किए।
यह क्या साबित करता है
Tiny Recursive Model (TRM) और RLM के बाद, Poetiq का परिणाम अब तक का सबसे मजबूत सबूत है कि recursive reasoning architectures AGI की ओर एक व्यवहार्य मार्ग का प्रतिनिधित्व करती हैं।
सबक बड़े models बनाने या लंबी context windows के बारे में नहीं है। यह ऐसी systems डिजाइन करने के बारे में है जो iteratively सोचती हैं - structured loops में generate करना, मूल्यांकन करना और परिष्कृत करना। जब reasoning प्रक्रिया स्वयं product बन जाती है, तो raw model scale की तुलना में architecture design अधिक महत्वपूर्ण हो जाता है।
पूर्ण implementation, prompts, और methodology GitHub पर उपलब्ध हैं।
न्यूज़लेटर से जुड़ें
मेरे नवीनतम प्रोजेक्ट्स, लेखों और AI तथा वेब डेवलपमेंट प्रयोगों के बारे में अपडेट प्राप्त करें।