٣٠ رمضان ١٤٤٧ هـ 4 دقيقة للقراءة

استراتيجية الذكاء الاصطناعي الرابحة في 2026 مجرد حلقات تكرارية

بنيت مهارات وضبطت وكلاء فرعيين وأعددت أوامر مخصصة. ثم تفوّقت حلقة تكرارية واحدة تعمل طوال الليل على كل ذلك. ثلاث بنى حلقية تُحقق نتائج فعلية.

بنيت مهارات. ضبطت وكلاء فرعيين وأوامر مخصصة. ثم أعادت حلقة تكرارية واحدة تعمل طوال الليل بنتائج تفوق كل ذلك التجهيز مجتمعاً.

في مارس 2026، المسار الأمثل للاستفادة من الذكاء الاصطناعي ليس خط أنابيب معقداً. إنه حلقة بسيطة لا تتوقف.

حلقة Ralph: سطر واحد من Bash يخترق حاجز الفشل

القلب هو while :; do cat PROMPT.md | claude-code ; done. حين ينتهي الوكيل ويحاول الخروج، يعترض Stop Hook عملية الإنهاء ويُعيد حقن نفس التعليمات.

الفكرة المحورية أن كل تكرار يفتح نافذة سياق جديدة تماماً. العمل السابق يعيش فقط في سجل git ونظام الملفات. السياق نفسه يبدأ نظيفاً دائماً. هذا يُلغي المشكلة الكلاسيكية حيث تتدهور حلقات الوكلاء كلما طالت المحادثة.

بعد كل تمريرة، تُسجَّل الدروس المستفادة في ملف AGENTS.md. وكيل التكرار التالي يقرأ تلك الملاحظات تلقائياً، فيتجنب تكرار الأخطاء ذاتها. حين تفشل مهمة واحدة أكثر من عشر مرات، تُصنَّف متعثرة وتُقسَّم تلقائياً إلى أجزاء أصغر لإعادة المحاولة. الفشل نفسه يصبح بيانات. كما صاغها Huntley: النتائج “السيئة بشكل حتمي” تتغذى مباشرة في مدخل الحلقة التالية.

اعتراف صريح: في المرة الأولى التي شغّلت فيها Ralph، أهدرت نحو ثلاث حلقات من كل عشر التوكنات بتكرار الخطأ ذاته. التعلم التراكمي لم يبدأ في الإقلاع إلا بعد أن أعدت صياغة التعليمات لتُهيكل بشكل صحيح ما يُكتب في AGENTS.md. الأداة أقل أهمية من تصميم التعليمات المحيطة بها.

مستودع Ralph

نموذج RLM: استدعاء تكراري للنموذج نفسه بهدف الاستدلال

أدخل مستنداً طويلاً في نموذج لغوي كبير وستتراجع دقته نحو النهاية. يحل RLM هذه المشكلة بطريقة مختلفة جذرياً.

بدلاً من تمرير تعليمات طويلة مباشرة إلى النموذج، يُخزَّن النص في متغيرات Python REPL. يكتب النموذج بعدها كوداً للتقطيع والبحث والقراءة الانتقائية لتلك المتغيرات، ثم يستدعي نفسه مجدداً مع القطع ذات الصلة فحسب. بدلاً من توسيع نافذة السياق، يقرر النموذج بنفسه كيف يتنقل داخل سياقه.

حقق GPT-5-mini مع RLM أكثر من ضعف إجابات GPT-5 الصحيحة على معيار OOLONG. يُحفظ المسار الكامل للاستدعاءات التكرارية على شكل كود، فيمكن تتبع السبب الدقيق الذي قاد النموذج إلى إجابة بعينها. على خلاف التلخيص أو الاسترجاع المعزز RAG اللذين يضغطان المعلومات، يُفوِّض RLM مقاطع محددة إلى استدعاءات نماذج فرعية. فقدان المعلومات لا يحدث من الناحية الهيكلية.

مستودع RLM

مشروع autoresearch: مئة تجربة أثناء النوم

أعطِ الوكيل ملف train.py واحداً ودعه يُعدّله بحرية. يغيّر البنية، يضبط المحسِّن، يفعل ما يشاء. يشغّل التدريب لمدة خمس دقائق بالضبط. إن تحسّن val_bpb أجرى commit. وإلا أعاد reset.

كرّر هذا طوال الليل وبحلول الصباح ستجد سجلات تكشف التغييرات التي نجحت وتلك التي أخفقت. يكتب الإنسان فقط التوجيه في ملف program.md.

ميزانية الخمس دقائق الثابتة هي ما يجعل الأمر يعمل. سواء غيّر الوكيل حجم النموذج أو حجم الدفعة، تعمل كل تجربة في ظروف متطابقة. المقارنة العادلة هي جوهر التكرار عالي الجودة. كل شيء يعمل على فرع git، فالتجارب الفاشلة تختفي بعملية reset والناجحة تتراكم على شكل commits. يحكي سجل git الصباحي القصة الكاملة للتحسّن.

رؤية Karpathy التالية هي بنية بحثية موزعة على غرار SETI@home، حيث تجرّب وكلاء متعددة في اتجاهات مختلفة وتدمج النتائج. مع ذلك، يعمل autoresearch حالياً على آلة واحدة، وأي تجربة لا تُظهر فارقاً ملموساً خلال خمس دقائق تُهمَل. ليس مناسباً لكل أنواع البحث.

مستودع autoresearch

لماذا يعمل التكرار في الذكاء الاصطناعي

تشترك هذه الأدوات الثلاث في مبدأ واحد: تستثمر كلها توسيع الحوسبة في وقت الاستدلال (test-time compute scaling)، أي إنفاق مزيد من الحوسبة لحظة التنفيذ لتحسين الأداء دون الحاجة إلى تكبير النموذج.

أثبتت نماذج o1 من OpenAI صحة هذا المبدأ. يطبّقه Ralph على جودة الكود. يطبّقه RLM على استيعاب السياق. يطبّقه autoresearch على البحث العلمي.

حين تجتمع ثلاثة عناصر، يتجاوز المخرج مجرد كود:

فكرة تستحق المتابعة
حلقة بشروط تحقق واضحة
ميزانية توكنات تكفي للعمل طوال الليل

ساعات نومك الثماني هي نافذة شخص آخر لتحقيق مئة تحسين. لن تنجح المئة بالطبع. لا بأس. الإخفاقات المتراكمة هي وقود الحلقة التالية.

انضم إلى النشرة الإخبارية

احصل على تحديثات حول أحدث مشاريعي ومقالاتي وتجاربي في الذكاء الاصطناعي وتطوير الويب.