HyperAIHyperAI

Command Palette

Search for a command to run...

الوكيل البرق: تدريب أي وكيل ذكاء اصطناعي باستخدام التعلم التعزيزي

Xufang Luo Yuge Zhang Zhiyuan He Zilong Wang Siyun Zhao Dongsheng Li Luna K. Qiu Yuqing Yang

الملخص

نقدم إطار العمل Agent Lightning، وهو إطار مرن وقابل للتوسع يمكّن من تدريب النماذج اللغوية الكبيرة (LLMs) باستخدام التعلم المعزز (RL) لأي وكيل ذكي في مجال الذكاء الاصطناعي. على عكس الطرق الحالية التي تربط بشكل ضيق تدريب التعلم المعزز بالوكلاء، أو تعتمد على تسلسل التوافيق مع تطبيق قنوات التمويه (masking)، فإن Agent Lightning يحقق فصلًا كاملاً بين تنفيذ الوكيل وعملية التدريب، مما يسمح بدمج سلس مع الوكلاء القائمة التي تم تطويرها بطرق متنوعة (مثل استخدام إطارات عمل مثل LangChain وOpenAI Agents SDK وAutoGen، أو بناؤها من الصفر) مع إجراء تعديلات تقنية شبه معدومة على الكود. من خلال صياغة تنفيذ الوكيل كعملية اتخاذ قرارات ماركوفية (Markov Decision Process)، نحدد واجهة بيانات موحدة ونُقدّم خوارزمية تعلم معزز هرمية تُسمى LightningRL، تتضمن وحدة توزيع المسؤولية (credit assignment)، ما يمكّننا من تفكيك المسارات (trajectories) الناتجة عن أي وكيل إلى انتقالات تدريبية. هذا يتيح للتعلم المعزز التعامل مع منطق تفاعلي معقد، مثل السيناريوهات متعددة الوكلاء والسير العمل الديناميكية. فيما يتعلق بتصميم النظام، نُقدّم بنية فصل الوكيل عن التدريب (Training-Agent Disaggregation)، ونُدخل إطارات مراقبة الوكيل (agent observability frameworks) إلى بيئة تشغيل الوكيل، مما يوفر واجهة قياسية للتحسين الدقيق (fine-tuning) للوكلاء. أظهرت التجارب في مهام تحويل النص إلى SQL، وإنشاء نص مدعوم بالاسترجاع، واستخدام أدوات الرياضيات تحسينات مستقرة ومستمرة، مما يبرز الإمكانات الكبيرة لهذا الإطار في تدريب ونشر الوكلاء في البيئات الواقعية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الوكيل البرق: تدريب أي وكيل ذكاء اصطناعي باستخدام التعلم التعزيزي | مستندات | HyperAI