HyperAIHyperAI

Command Palette

Search for a command to run...

Console

يُحفِّز التعلُّم التكراري الميتا (Meta-RL) الاستكشاف في الوكلاء اللغويين

Yulun Jiang Liangze Jiang Damien Teney Michael Moor Maria Brbic

Abstract

أدى التعلم المعزز (RL) إلى تمكين تدريب وكلاء النماذج اللغوية الكبيرة (LLM) للتفاعل مع البيئة وحل المهام متعددة المرات ذات الفترة الزمنية الطويلة. ومع ذلك، غالبًا ما يواجه وكلاء التعلم المعزز صعوبات في المهام التي تتطلب استكشافًا نشطًا، ولا يتمكنون من التكيف بكفاءة من الخبرات الناتجة عن التجربة والخطأ. في هذه الورقة، نقدم LaMer، وهي إطار عام للتعلم المعزز على المستوى الميتا (Meta-RL)، يمكّن وكلاء LLM من الاستكشاف النشط وتعلم التغذية الراجعة من البيئة أثناء التشغيل. يتكون LaMer من مكوّنين رئيسيين: (أ) إطار تدريب عبر الحلقات يشجع على الاستكشاف وتحسين المكافآت على المدى الطويل؛ و(ب) تكيّف السياسة ضمن السياق من خلال التفكير المنظور (reflection)، مما يسمح للوكلاء بتعديل سياساتهم استجابةً لإشارات التغذية الراجعة من المهمة دون الحاجة إلى تحديثات التدرج (gradient update). أظهرت التجارب في بيئات متنوعة تحسنًا ملحوظًا في الأداء مقارنةً بالأساليب التقليدية للتعلم المعزز، مع تحقيق مكاسب في الأداء بنسبة 11% و14% و19% على التوالي في مهام Sokoban وMineSweeper وWebshop. علاوةً على ذلك، أظهر LaMer أداءً أفضل في التعميم على مهام أكثر تحديًا أو غير مسبوقة مقارنةً بالوكلاء المدربة باستخدام التعلم المعزز. بشكل عام، تُظهر نتائجنا أن التعلم المعزز على المستوى الميتا يوفر نهجًا منهجيًا لتحفيز الاستكشاف لدى وكلاء اللغة، مما يمكّن من تكيّف أكثر متانة مع البيئات الجديدة من خلال استراتيجيات استكشاف مُكتسبة.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
يُحفِّز التعلُّم التكراري الميتا (Meta-RL) الاستكشاف في الوكلاء اللغويين | Papers | HyperAI