يُحفِّز التعلُّم التكراري الميتا (Meta-RL) الاستكشاف في الوكلاء اللغويين
يُحفِّز التعلُّم التكراري الميتا (Meta-RL) الاستكشاف في الوكلاء اللغويين
Yulun Jiang Liangze Jiang Damien Teney Michael Moor Maria Brbic
Abstract
أدى التعلم المعزز (RL) إلى تمكين تدريب وكلاء النماذج اللغوية الكبيرة (LLM) للتفاعل مع البيئة وحل المهام متعددة المرات ذات الفترة الزمنية الطويلة. ومع ذلك، غالبًا ما يواجه وكلاء التعلم المعزز صعوبات في المهام التي تتطلب استكشافًا نشطًا، ولا يتمكنون من التكيف بكفاءة من الخبرات الناتجة عن التجربة والخطأ. في هذه الورقة، نقدم LaMer، وهي إطار عام للتعلم المعزز على المستوى الميتا (Meta-RL)، يمكّن وكلاء LLM من الاستكشاف النشط وتعلم التغذية الراجعة من البيئة أثناء التشغيل. يتكون LaMer من مكوّنين رئيسيين: (أ) إطار تدريب عبر الحلقات يشجع على الاستكشاف وتحسين المكافآت على المدى الطويل؛ و(ب) تكيّف السياسة ضمن السياق من خلال التفكير المنظور (reflection)، مما يسمح للوكلاء بتعديل سياساتهم استجابةً لإشارات التغذية الراجعة من المهمة دون الحاجة إلى تحديثات التدرج (gradient update). أظهرت التجارب في بيئات متنوعة تحسنًا ملحوظًا في الأداء مقارنةً بالأساليب التقليدية للتعلم المعزز، مع تحقيق مكاسب في الأداء بنسبة 11% و14% و19% على التوالي في مهام Sokoban وMineSweeper وWebshop. علاوةً على ذلك، أظهر LaMer أداءً أفضل في التعميم على مهام أكثر تحديًا أو غير مسبوقة مقارنةً بالوكلاء المدربة باستخدام التعلم المعزز. بشكل عام، تُظهر نتائجنا أن التعلم المعزز على المستوى الميتا يوفر نهجًا منهجيًا لتحفيز الاستكشاف لدى وكلاء اللغة، مما يمكّن من تكيّف أكثر متانة مع البيئات الجديدة من خلال استراتيجيات استكشاف مُكتسبة.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.