Agent = نموذج + نظام
تؤكد الأبحاث الحديثة أن أداء الوكلاء الذكاء الاصطناعي لا يعتمد فقط على قوة النموذج الأساسي، بل يعتمد بشكل جوهري على "الإطار الحامل" أو ما يسمى بالـ Harness، وهو الطبقة البرمجية المسؤولة عن إدارة السياق والأدوات وحالة النظام والصلاحيات. أظهرت دراسة مقارنة باستخدام Benchmark جديد اسمها Harness-Bench أن تغيير هذا الإطار الحامل مع ثبوت النموذج يؤدي إلى تباين هائل في الأداء، حيث تفاوتت الدرجات بمقدار 23.8 نقطة بين الأنظمة المختلفة، مما يثبت أن المعادلة الحقيقية هي: الوكيل = النموذج + الإطار الحامل. شملت الدراسة اختبارات لـ 106 مهام محمية في بيئة معزولة، مع استخدام 8 نماذج خلفية و6 إطارات مختلفة، وسجلت أكثر من 5000 مسار تنفيذي. كشفت النتائج المفاجئة أن سبب فشل الوكلاء لا يكمن في نقص القدرة المعرفية أو المنطقية، بل في مشاكل تنظيمية وتنفيذية. ففي 36.4% من حالات الفشل، حدثت انتهاكات ل合同约定 تنسيق البيانات، مثل وجود أخطاء في ملفات JSON أو فقدان صفوف في سجلات العمليات. أما في 24.6% من الحالات، فشل النظام في التعافي من أخطاء الأدوات دون إعادة توجيه الخطة، و14.6% من الفشل كان بسبب عدم ارتباط الأدلة بالادعاءات المطروحة. والأهم من ذلك، أن 11.1% من الفشل نتج عن عدم تحويل التفكير المنطقي إلى وثيقة فعلية أو ملف قابل للتحقق. هذه الأرقام تشير إلى أن النموذج يفهم المهمة ويصل إلى حل صحيح محلياً، لكنه يفشل في "تسجيل" هذا الحل في المكان الذي يحكم عليه النظام بناءً عليه. لذا يصف الباحثون هذه المشكلة بأنها "مشكلة محاسبة" وليست مشكلة ذكاء، مما يستدعي مفهومًا جديدًا يسمى "محاذاة التنفيذ". هذا المفهوم يقيس قدرة الإطار الحامل على الحفاظ على التوافق بين النوايا، والأفكار المنطقية، والأدوات، والنتائج الموثقة. عندما تنقطع هذه السلسلة، يضيع الجهد رغم صحة التفكير. في سياق تطور الذكاء الاصطناعي، وجد الباحثون أن أهمية الإطار الحامل تتضاءل كلما نما قوت النموذج الأساسي. النماذج الأضعف تكون رهائن للإطار الحامل وتتأثر درجاتها بشكل كبير بتغييره، بينما النماذج القوية تتحمل الفروقات في الإدارة والأدوات وتستمر في الأداء الجيد. هذا يعني أن الإطار الحامل قد يكون "عارضة مؤقتة" يحتاجها النموذج الضعيف، بينما تتلاشى أهميته النسبية مع تطور النموذج. في النهاية، أظهرت البيانات أن البساطة تفوق التعقيد. حقق الإطار الحامل "NanoBot"، وهو نظام خفيف الوزن ومصمم بقلب منطقي صغير، أعلى نسبة كفاءة ودقة مقارنة بأنظمة معقدة أخرى تستهلك موارد هائلة. كما أن التخصيص الدقيق، كما في نظام "Codex" المخصص للبرمجة، تفوق على المرونة الواسعة. الدرس المستفاد هو أن الحل الأمثل ليس إضافة أكثر الأدوات تعقيدًا، بل بناء حلقة تنفيذية صغيرة وواضحة تحافظ على دقة السجلات والمعلومات بدلاً من أنظمة ضخمة تفقد السيطرة على التفاصيل.
