HyperAIHyperAI
منذ 12 أيام

الوكيل البرق: تدريب أي وكيل ذكاء اصطناعي باستخدام التعلم التعزيزي

Xufang Luo, Yuge Zhang, Zhiyuan He, Zilong Wang, Siyun Zhao, Dongsheng Li, Luna K. Qiu, Yuqing Yang
الوكيل البرق: تدريب أي وكيل ذكاء اصطناعي باستخدام التعلم التعزيزي
الملخص

نقدم إطار العمل Agent Lightning، وهو إطار مرن وقابل للتوسع يمكّن من تدريب النماذج اللغوية الكبيرة (LLMs) باستخدام التعلم المعزز (RL) لأي وكيل ذكي في مجال الذكاء الاصطناعي. على عكس الطرق الحالية التي تربط بشكل ضيق تدريب التعلم المعزز بالوكلاء، أو تعتمد على تسلسل التوافيق مع تطبيق قنوات التمويه (masking)، فإن Agent Lightning يحقق فصلًا كاملاً بين تنفيذ الوكيل وعملية التدريب، مما يسمح بدمج سلس مع الوكلاء القائمة التي تم تطويرها بطرق متنوعة (مثل استخدام إطارات عمل مثل LangChain وOpenAI Agents SDK وAutoGen، أو بناؤها من الصفر) مع إجراء تعديلات تقنية شبه معدومة على الكود. من خلال صياغة تنفيذ الوكيل كعملية اتخاذ قرارات ماركوفية (Markov Decision Process)، نحدد واجهة بيانات موحدة ونُقدّم خوارزمية تعلم معزز هرمية تُسمى LightningRL، تتضمن وحدة توزيع المسؤولية (credit assignment)، ما يمكّننا من تفكيك المسارات (trajectories) الناتجة عن أي وكيل إلى انتقالات تدريبية. هذا يتيح للتعلم المعزز التعامل مع منطق تفاعلي معقد، مثل السيناريوهات متعددة الوكلاء والسير العمل الديناميكية. فيما يتعلق بتصميم النظام، نُقدّم بنية فصل الوكيل عن التدريب (Training-Agent Disaggregation)، ونُدخل إطارات مراقبة الوكيل (agent observability frameworks) إلى بيئة تشغيل الوكيل، مما يوفر واجهة قياسية للتحسين الدقيق (fine-tuning) للوكلاء. أظهرت التجارب في مهام تحويل النص إلى SQL، وإنشاء نص مدعوم بالاسترجاع، واستخدام أدوات الرياضيات تحسينات مستقرة ومستمرة، مما يبرز الإمكانات الكبيرة لهذا الإطار في تدريب ونشر الوكلاء في البيئات الواقعية.

الوكيل البرق: تدريب أي وكيل ذكاء اصطناعي باستخدام التعلم التعزيزي | أحدث الأوراق البحثية | HyperAI