نماذج اللغة الكبيرة والهندسة الفورية

نماذج اللغة الكبيرة وهندسة الأوامر والمعايير المرجعية.

11 posts

٧ شوال ١٤٤٧ هـ

أربعة أنواع من السياق تحدد ما إذا كان الذكاء الاصطناعي يُفيدك أم يُضيّع وقتك

قضيت عطلة نهاية أسبوع بالكامل أحشو نموذجاً بمئة ميغابايت من ملفات PDF، فازداد الأداء سوءاً. ما كشف السبب هو تصنيف ما كنت أُغذّيه إلى أربع فئات.

٢٣ رمضان ١٤٤٧ هـ

570,000 سطر من كود LLM تُجمَّع بلا أخطاء. لكنه كان أبطأ من SQLite بـ 20,171 مرة.

قام أحدهم بقياس أداء إعادة كتابة SQLite بلغة Rust باستخدام LLM. الهوة بين كود يبدو صحيحاً وكود صحيح فعلاً بلغت خمسة أوامر من حيث الحجم.

١٦ رمضان ١٤٤٧ هـ

كيف يحل Codex مشكلة الضغط بطريقة مختلفة

هندسة عكسية لآلية تعامل Codex مع امتلاء نافذة السياق مقارنةً بـ Claude Code، من تشفير AES إلى نمط تسليم الجلسات وحيل KV cache.

٨ رمضان ١٤٤٧ هـ

كنت كسولاً جداً لأكتب CLAUDE.md — واتضح أن ذلك كان القرار الصحيح

بيانات معيارية جديدة تُظهر أن ملفات السياق AGENTS.md وCLAUDE.md تُضعف أداء وكلاء البرمجة فعلياً. أحياناً يكون الكسل أفضل قرار هندسي.

٣ رمضان ١٤٤٧ هـ

لصقت الأمر مرتين فتغيرت الدقة

أرخص طريقة لتحسين أداء نماذج اللغة الكبيرة، أثبتها Google Research على 7 نماذج. بدون تدريب إضافي، بدون هندسة أوامر. مجرد نسخ ولصق.

١ رمضان ١٤٤٧ هـ

من 6.7% إلى 68.3% في معدل نجاح المهام: الـ harness وليس النموذج هو ما صنع فارق الـ 10 أضعاف

ما كشفته نتائج Terminal Bench من LangChain وتجارب تنسيق hashline. السبب في انقلاب ترتيب لوحة المتصدرين مع النموذج ذاته يعود إلى ثلاثة عوامل: الـ prompt، والأدوات، والـ middleware.

٢٠ شعبان ١٤٤٧ هـ

خريطة رقائق الذكاء الاصطناعي أُعيد رسمها - الوكلاء غيّروا كل شيء في 2026

لماذا لم تعد GPU من Nvidia كافية وحدها، وكيف أعاد عصر الاستدلال الفوري تشكيل سوق أشباه الموصلات بالكامل.

٢٠ شعبان ١٤٤٧ هـ

مفارقة دولاب الذكاء الاصطناعي: رهان OpenAI على المزيد من القوة الحاسوبية وسط مخاوف الفائض

بينما يحذر السوق من فائض القدرة الحاسوبية، تعلن OpenAI: نحتاج المزيد من القوة الحاسوبية. مفارقة تكشف الفجوة الحقيقية في عصر الذكاء الاصطناعي.

٢٠ شعبان ١٤٤٧ هـ

حرب الذكاء الاصطناعي حسمها التركيز - ما يثبته Opus 4.5 من Anthropic عن الاستراتيجية

Claude Opus 4.5 من Anthropic لم يكتفِ بتحطيم المعايير. بل أثبت أن الرهان الكامل على النص والكود والوكلاء بينما ينتشر المنافسون هو الخطوة الرابحة.

٢٠ شعبان ١٤٤٧ هـ

الذكاء الاصطناعي يقترب من التفكير البشري لأول مرة - Poetiq يتجاوز 50% في اختبار ARC-AGI-2

نظام Poetiq التكراري الوصفي أصبح الأول في تجاوز 50% في اختبار ARC-AGI-2، المعيار المصمم لقياس الذكاء العام الحقيقي. إليك كيف تفوق فريق من 6 أشخاص على Google بنصف التكلفة.

٢٠ شعبان ١٤٤٧ هـ

جعل نماذج اللغة الكبيرة تكتب كوداً لقراءة 10 ملايين توكن - كيف يعمل RLM

نافذة سياق أكبر لا تجعل الذكاء الاصطناعي أذكى. RLM يغير قواعد اللعبة بالسماح لنماذج اللغة بكتابة كود لقراءة المستندات الضخمة بشكل انتقائي.