أربعة أنواع من السياق تحدد ما إذا كان الذكاء الاصطناعي يُفيدك أم يُضيّع وقتك
قضيت عطلة نهاية أسبوع بالكامل أحشو نموذجاً بمئة ميغابايت من ملفات PDF، فازداد الأداء سوءاً. ما كشف السبب هو تصنيف ما كنت أُغذّيه إلى أربع فئات.
نماذج اللغة الكبيرة وهندسة الأوامر والمعايير المرجعية.
11 posts
قضيت عطلة نهاية أسبوع بالكامل أحشو نموذجاً بمئة ميغابايت من ملفات PDF، فازداد الأداء سوءاً. ما كشف السبب هو تصنيف ما كنت أُغذّيه إلى أربع فئات.
قام أحدهم بقياس أداء إعادة كتابة SQLite بلغة Rust باستخدام LLM. الهوة بين كود يبدو صحيحاً وكود صحيح فعلاً بلغت خمسة أوامر من حيث الحجم.
هندسة عكسية لآلية تعامل Codex مع امتلاء نافذة السياق مقارنةً بـ Claude Code، من تشفير AES إلى نمط تسليم الجلسات وحيل KV cache.
بيانات معيارية جديدة تُظهر أن ملفات السياق AGENTS.md وCLAUDE.md تُضعف أداء وكلاء البرمجة فعلياً. أحياناً يكون الكسل أفضل قرار هندسي.
أرخص طريقة لتحسين أداء نماذج اللغة الكبيرة، أثبتها Google Research على 7 نماذج. بدون تدريب إضافي، بدون هندسة أوامر. مجرد نسخ ولصق.
ما كشفته نتائج Terminal Bench من LangChain وتجارب تنسيق hashline. السبب في انقلاب ترتيب لوحة المتصدرين مع النموذج ذاته يعود إلى ثلاثة عوامل: الـ prompt، والأدوات، والـ middleware.
لماذا لم تعد GPU من Nvidia كافية وحدها، وكيف أعاد عصر الاستدلال الفوري تشكيل سوق أشباه الموصلات بالكامل.
بينما يحذر السوق من فائض القدرة الحاسوبية، تعلن OpenAI: نحتاج المزيد من القوة الحاسوبية. مفارقة تكشف الفجوة الحقيقية في عصر الذكاء الاصطناعي.
Claude Opus 4.5 من Anthropic لم يكتفِ بتحطيم المعايير. بل أثبت أن الرهان الكامل على النص والكود والوكلاء بينما ينتشر المنافسون هو الخطوة الرابحة.
نظام Poetiq التكراري الوصفي أصبح الأول في تجاوز 50% في اختبار ARC-AGI-2، المعيار المصمم لقياس الذكاء العام الحقيقي. إليك كيف تفوق فريق من 6 أشخاص على Google بنصف التكلفة.
نافذة سياق أكبر لا تجعل الذكاء الاصطناعي أذكى. RLM يغير قواعد اللعبة بالسماح لنماذج اللغة بكتابة كود لقراءة المستندات الضخمة بشكل انتقائي.