
الملخص
بينما يمكن لتعلم التقوية (RL) أن يُمكّن وكالات النماذج اللغوية الكبيرة (LLM) من التحسين الذاتي من خلال التفاعل، يظل اعتماده العملي مُحَدَّدًا بسبب تكاليف التوسعات العالية، وتنوع المهام المحدود، وضبابية إشارات المكافأة، بالإضافة إلى تعقيد البنية التحتية، جميعها عوامل تعيق جمع بيانات تجربة قابلة للتوسع. ولحل هذه التحديات، نقدّم "DreamGym"، أول إطار موحد مُصمم لاستخلاص تجارب متنوعة مع أخذ القابلية للتوسع بعين الاعتبار، بهدف تمكين تدريب تقوية على الإنترنت فعّال لوكالات مستقلة. بدلًا من الاعتماد على التوسعات المكلفة في البيئات الحقيقية، يُستخلص "DreamGym" ديناميات البيئة في نموذج تجربة مبني على التفكير، يُولِّد انتقالات الحالة المتسقة وإشارات تغذية راجعة من خلال تفكير خطوة بخطوة، مما يمكّن من جمع توسعات وكالات قابلة للتوسع لتدريب تقوية. ولتحسين استقرار ونوعية الانتقالات، يستخدم "DreamGym" مخزن تجربة مُعدّل (experience replay buffer) مُبَدَّأ ببيانات واقعية خارجية، ويُحدَّث باستمرار بتفاعلات جديدة لدعم تدريب الوكالة بشكل فعّال. ولتحسين اكتساب المعرفة، يُولِّد "DreamGym" تلقائيًا مهام جديدة تُحدِّد مهارات السياسة الحالية للوكالة، مما يمكّن من تعلم منهجي مُتَوَسِّع فعّال في الوقت الحقيقي. تُظهر التجارب في بيئات متنوعة وبنية مُختلفة للوكالات أن "DreamGym" يُحسِّن بشكل ملحوظ تدريب تقوية، سواء في البيئات المُصَنَّعة بالكامل أو في سيناريوهات نقل النمذجة من المحاكاة إلى الواقع. على المهام غير المُعدَّة مسبقًا لـ RL، مثل WebArena، يتفوَّق "DreamGym" على جميع المقارنات (baselines) بفارق يفوق 30%. وفي البيئات المُعدَّة لـ RL ولكن المكلفة، يُنافس أداء GRPO وPPO باستخدام تفاعلات مُصَنَّعة فقط. وعند نقل سياسة تم تدريبها بالكامل على تجارب مُصَنَّعة إلى تدريب RL في البيئة الحقيقية، يُحقِّق "DreamGym" مكاسب أداء كبيرة مع الحاجة إلى عدد أقل بكثير من التفاعلات الواقعية، مُقدِّمًا استراتيجية تمهيدية قابلة للتوسع لتدريب تقوية عام.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.