من 6.7% إلى 68.3% في معدل نجاح المهام: الـ harness وليس النموذج هو ما صنع فارق الـ 10 أضعاف
ما كشفته نتائج Terminal Bench من LangChain وتجارب تنسيق hashline. السبب في انقلاب ترتيب لوحة المتصدرين مع النموذج ذاته يعود إلى ثلاثة عوامل: الـ prompt، والأدوات، والـ middleware.