سلسلة الوكلاء: نماذج أساسية للوكلاء من النهاية إلى النهاية من خلال الاستخلاص متعدد الوكلاء والتعلم التفاعلي للوكلاء

أظهرت التطورات الحديثة في النماذج اللغوية الكبيرة (LLMs) وأنظمة الوكلاء المتعددة قدرات متميزة في مهام حل المشكلات المعقدة، مثل البحث العميق، والبرمجة بناءً على الحس، والاستدلال الرياضي. ومع ذلك، فإن معظم أنظمة الوكلاء المتعددة الحالية تُبنى على هندسة مخصصة للنُسَق (prompts) أو التدفق العملياتي، مع استخدام إطار عمل معقد للوكلاء، ما يجعلها غير فعّالة من الناحية الحسابية، وأقل قدرة، ولا تستفيد من التعلم القائم على البيانات. في هذه الدراسة، نقدّم نموذج "سلسلة الوكلاء" (Chain-of-Agents - CoA)، وهو نموذج جديد للتفكير في النماذج اللغوية الكبيرة، يمكّن من حل المشكلات المعقدة بشكل متكامل ونهائي (end-to-end) داخل نموذج واحد، بنفس الطريقة التي تعمل بها أنظمة الوكلاء المتعددة (أي حل مشكلة متعددة الدورات باستخدام أدوات متعددة ووكلاء متعددين). في عملية حل المشكلات عبر سلسلة الوكلاء، يُفعّل النموذج بشكل ديناميكي وكلاء أدوات مختلفة، ووكلاء يُقلّدون أدوارًا مختلفة، لمحاكاة التعاون بين الوكلاء بطريقة متكاملة ونهائية. ولإثارة قدرة النماذج اللغوية الكبيرة على حل المشكلات عبر سلسلة الوكلاء بشكل متكامل، نقدّم إطارًا للتأميم متعدد الوكلاء (multi-agent distillation)، بهدف تحويل أنظمة الوكلاء المتعددة المتطورة إلى مسارات (trajectories) لسلسلة الوكلاء، لاستخدامها في التدريب المُوجّه بالوكلاء (agentic supervised fine-tuning). ثم نستخدم التعلم التعلّمي المُعزّز بالوكلاء (agentic reinforcement learning) على مهام وظيفية يمكن التحقق منها، لتحسين مهارات النماذج في حل المشكلات عبر سلسلة الوكلاء بشكل أكبر. نطلق على النماذج الناتجة اسم "نماذج الأساس الوكيلة" (Agent Foundation Models - AFMs). تُظهر دراساتنا التجريبية أن نموذج AFM يحقق أداءً جديدًا يُعدّ الأفضل على مستوى الحالة الراهنة (state-of-the-art) عبر مجموعة متنوعة من المعايير، سواء في بيئات الوكيل الويب أو وكيل البرمجة. ونُعلن عن فتح جميع مكونات البحث بشكل كامل، بما في ذلك أوزان النموذج، وشفرة التدريب والتقييم، وبيانات التدريب، مما يُقدّم أساسًا متينًا للبحث المستقبلي في مجال نماذج الوكلاء والتعلم التعلّمي المُعزّز بالوكلاء.