Command Palette
Search for a command to run...
AgentGym-RL: تدريب وكلاء النماذج اللغوية الكبيرة على اتخاذ القرارات على المدى الطويل من خلال التعلم المعزز متعدد الدورات

الملخص
إن تطوير وكالات نمذجة لغوية كبيرة (LLM) ذاتية التحكم القادرة على اتخاذ سلسلة من القرارات الذكية لحل مهام معقدة في العالم الحقيقي يُعدّ مجالًا سريع التطور. تمامًا كما يحدث في النمو المعرفي البشري، يتوقع من هذه الوكالات اكتساب المعرفة والمهارات من خلال الاستكشاف والتفاعل مع البيئة. وعلى الرغم من التقدم المحرز، لا يزال هناك نقص في إطار موحد وتفاعلي لتعلم التدعيم (RL) يمكنه تدريب هذه الوكالات من الصفر – دون الاعتماد على التحسين المراقب (SFT) – في بيئات متنوعة وواقعية. ولسد هذا الفجوة، نقدّم إطارًا جديدًا يُسمى AgentGym-RL، يُستخدم لتدريب وكالات نمذجة لغوية كبيرة على اتخاذ قرارات تفاعلية متعددة الدورات باستخدام تعلم التدعيم. يتميز هذا الإطار ببنية معيارية ومتعددة الوحدات، مما يضمن مرونة عالية وقابلية للتوسع. كما يشمل مجموعة واسعة من السيناريوهات الواقعية، ويُدعم من قبل خوارزميات تعلم التدعيم الرئيسية. بالإضافة إلى ذلك، نقترح منهجية تسمى ScalingInter-RL، وهي منهجية تدريب صُمّمت لتحقيق التوازن بين الاستكشاف والاستغلال، وضمان استقرار عملية تحسين تعلم التدعيم. في المراحل المبكرة، يُركّز المنهج على الاستغلال من خلال تقييد عدد التفاعلات، ثم ينتقل تدريجيًا نحو الاستكشاف مع تمديد فترات التفكير (horizons) لتشجيع استراتيجيات متنوعة لحل المشكلات. وبهذه الطريقة، يتطور السلوك لدى الوكالة ليكون أكثر تنوعًا، ويقل احتمال انهيار أدائها في الفترات الطويلة. أجرينا تجارب واسعة لاختبار استقرار وفعالية كل من إطار AgentGym-RL ومنهجية ScalingInter-RL. وقد أظهرت وكالاتنا أداءً يُوازي أو يتفوق على النماذج التجارية في 27 مهمة ضمن بيئات متنوعة. ونقدّم رؤى مهمة، ونُعلن عن فتح مصدر الإطار الكامل AgentGym-RL – بما في ذلك الشفرة البرمجية والبيانات – لتمكين مجتمع البحث من تطوير الجيل التالي من الوكالات الذكية.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.