البحث العميق للـ Multi-Agent: تدريب أنظمة الـ Multi-Agent باستخدام M-GRPO

الملخص
فيما يلي ترجمة النص إلى اللغة العربية، مع الالتزام بالدقة والمصطلحات التقنية والأسلوب الأكاديمي:تُظهر أنظمة الوكلاء المتعددين (Multi-agent systems) أداءً جيداً في مهام الاستدلال العام، إلا أن الافتقار إلى التدريب في المجالات المتخصصة يحد من دقتها. تعتمد أساليب التدريب الحالية على تدريب نموذج لغوي كبير (LLM) موحد لجميع الوكلاء في النظام، وهو ما قد يقيد الأداء نظراً لاختلاف التوزيعات الأساسية للوكلاء المختلفين. وبناءً على ذلك، ينبغي أن يكون تدريب أنظمة الوكلاء المتعددين باستخدام نماذج لغوية كبيرة مستقلة هو الخطوة التالية للحل.ومع ذلك، يفرض هذا النهج تحديات في عملية التحسين (Optimization)؛ فعلى سبيل المثال، يعمل الوكلاء بوتائر مختلفة، وتتضمن المسارات التنفيذية (Rollouts) استدعاءات متفاوتة للوكلاء الفرعيين، كما يتم غالباً نشر الوكلاء عبر خوادم منفصلة، مما يتسبب في تعطيل تدفق التدرج الشامل (End-to-end gradient flow). ولمعالجة هذه المشكلات، نقترح نموذج "M-GRPO"، وهو امتداد هرمي لتقنية "تحسين السياسة النسبية للمجموعة" (Group Relative Policy Optimization) مصمم خصيصاً لأنظمة الوكلاء المتعددين الرأسية التي تتكون من وكيل رئيسي (مُخطِّط) وعدة وكلاء فرعيين (منفذي أدوات متعددي الأدوار).يقوم M-GRPO بحساب المزايا النسبية للمجموعة لكل من الوكيل الرئيسي والوكلاء الفرعيين، مع الحفاظ على تخصيص الائتمان الهرمي (Hierarchical credit assignment). كما يُقَدِّم مخططاً لمحاذاة المسار (Trajectory-alignment) يعمل على توليد دفعات ثابتة الحجم على الرغم من تباين استدعاءات الوكلاء الفرعيين. ونقوم بنشر خط تدريب مفصول (Decoupled training pipeline) يعمل فيه الوكلاء على خوادم منفصلة ويتبادلون الحد الأدنى من الإحصائيات عبر مخزن مشترك، مما يتيح تدريباً قابلاً للتوسع دون الحاجة إلى الانتشار العكسي (Backpropagation) عبر الخوادم.وفي التجارب التي أُجريت على معايير مرجعية واقعية (مثل GAIA وXBench-DeepSearch وWebWalkerQA)، تفوق M-GRPO باستمرار على كل من GRPO للوكيل الأحادي وGRPO للوكلاء المتعددين ذوي الوكلاء الفرعيين المجمدين، مما يبرهن على تحسّن في الاستقرار وكفاءة العينة. وتُظهر هذه النتائج أن محاذاة المسارات غير المتجانسة وفصل عملية التحسين عبر الوكلاء المتخصصين يعزز من مهام الاستدلال المُعزز بالأدوات.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.