الذكاء الاصطناعي يقترب من التفكير البشري لأول مرة - Poetiq يتجاوز 50% في اختبار ARC-AGI-2
نظام Poetiq التكراري الوصفي أصبح الأول في تجاوز 50% في اختبار ARC-AGI-2، المعيار المصمم لقياس الذكاء العام الحقيقي. إليك كيف تفوق فريق من 6 أشخاص على Google بنصف التكلفة.
حقق Poetiq للتو إنجازاً تاريخياً في معيار اختبار ARC-AGI.
ARC-AGI هو الاختبار المصمم لتقييم ما إذا كان الذكاء الاصطناعي يمتلك ذكاءً عاماً حقيقياً. لا يطلب من النماذج استرجاع بيانات التدريب، بل يقدم مسائل أنماط جديدة تماماً ويتطلب من النظام استنتاج القواعد الأساسية بنفسه. البشر يحققون في المتوسط حوالي 60% دقة. حتى الآن، كانت أنظمة الذكاء الاصطناعي بعيدة جداً عن هذا المستوى.
لماذا نتيجة Poetiq مهمة
- الأول في تجاوز 50% في ARC-AGI-2 - مُصادق عليها رسمياً من مؤسسة ARC Prize Foundation بدقة 54%
- نصف التكلفة مقارنة بأفضل ما كان متاحاً - 30.57 دولار لكل مسألة مقابل 77.16 دولار لنموذج Gemini 3 Deep Think
- فريق من 6 أشخاص فقط بخبرة مجمعة 53 عاماً من Google DeepMind تفوق على أكبر مختبرات الذكاء الاصطناعي
- منهج مفتوح المصدر بالكامل مع التعليمات متاحة على GitHub
للسياق، النماذج الرائدة للذكاء الاصطناعي سجلت أقل من 5% في ARC-AGI-2 في بداية 2025. القفزة من أقل من 5% إلى أكثر من 50% في أشهر تشير إلى أن شيئاً جوهرياً قد تغير.
البنية المعمارية - التفكير التكراري فوق الحجم الخام
الابتكار الأساسي هو نظام وصفي لا يدرب نماذج جديدة. بدلاً من ذلك، ينظم نماذج LLM الموجودة من خلال حلقات تكرارية من التفكير.
النظام يولد حلاً مرشحاً، ينتقده، يحلل التعليقات، ويستخدم LLM لتحسين الإجابة. ثم يكرر. التعليمات هي مجرد الواجهة - الذكاء الحقيقي ينبثق من عملية التحسين التكرارية هذه.
هذا ابتعاد متعمد عن أسلوب chain-of-thought القياسي. بدلاً من السؤال مرة واحدة وقبول المخرج، نظام Poetiq يعامل كل إجابة كمسودة يجب تحسينها من خلال نقد ذاتي منظم.
المراجعة الذاتية - معرفة متى يتوقف
القدرة الأكثر إثارة للإعجاب هي آلية المراجعة الذاتية. النظام يحدد بشكل مستقل متى جمع معلومات كافية ومتى ينهي عملية التفكير.
هذا ليس مجرد راحة هندسية - إنها آلية اقتصادية أساسية. من خلال متوسط أقل من طلبين LLM لكل مسألة ARC، النظام يقلل الحساب غير الضروري مع الحفاظ على الدقة. هذه هي الطريقة التي حقق بها فريق صغير نتائج متفوقة بنصف تكلفة منافسين تبلغ قيمتهم تريليونات الدولارات.
ما يثبته هذا
بعد نموذج Tiny Recursive Model (TRM) و RLM، نتيجة Poetiq هي الدليل الأقوى حتى الآن على أن بنى التفكير التكراري تمثل مساراً قابلاً للتطبيق نحو AGI.
الدرس ليس في بناء نماذج أكبر أو نوافذ سياق أطول. إنما في تصميم أنظمة تفكر بشكل تكراري - توليد، تقييم، وتحسين في حلقات منظمة. عندما تصبح عملية التفكير نفسها هي المنتج، حجم النموذج الخام يصبح أقل أهمية من تصميم البنية المعمارية.
التنفيذ الكامل والتعليمات والمنهجية متاحة على GitHub.
انضم إلى النشرة الإخبارية
احصل على تحديثات حول أحدث مشاريعي ومقالاتي وتجاربي في الذكاء الاصطناعي وتطوير الويب.