منذ 2 أشهر

الملخص

أدى التعلم المعزز (RL) إلى تمكين تدريب وكلاء النماذج اللغوية الكبيرة (LLM) للتفاعل مع البيئة وحل المهام متعددة المرات ذات الفترة الزمنية الطويلة. ومع ذلك، غالبًا ما يواجه وكلاء التعلم المعزز صعوبات في المهام التي تتطلب استكشافًا نشطًا، ولا يتمكنون من التكيف بكفاءة من الخبرات الناتجة عن التجربة والخطأ. في هذه الورقة، نقدم LaMer، وهي إطار عام للتعلم المعزز على المستوى الميتا (Meta-RL)، يمكّن وكلاء LLM من الاستكشاف النشط وتعلم التغذية الراجعة من البيئة أثناء التشغيل. يتكون LaMer من مكوّنين رئيسيين: (أ) إطار تدريب عبر الحلقات يشجع على الاستكشاف وتحسين المكافآت على المدى الطويل؛ و(ب) تكيّف السياسة ضمن السياق من خلال التفكير المنظور (reflection)، مما يسمح للوكلاء بتعديل سياساتهم استجابةً لإشارات التغذية الراجعة من المهمة دون الحاجة إلى تحديثات التدرج (gradient update). أظهرت التجارب في بيئات متنوعة تحسنًا ملحوظًا في الأداء مقارنةً بالأساليب التقليدية للتعلم المعزز، مع تحقيق مكاسب في الأداء بنسبة 11% و14% و19% على التوالي في مهام Sokoban وMineSweeper وWebshop. علاوةً على ذلك، أظهر LaMer أداءً أفضل في التعميم على مهام أكثر تحديًا أو غير مسبوقة مقارنةً بالوكلاء المدربة باستخدام التعلم المعزز. بشكل عام، تُظهر نتائجنا أن التعلم المعزز على المستوى الميتا يوفر نهجًا منهجيًا لتحفيز الاستكشاف لدى وكلاء اللغة، مما يمكّن من تكيّف أكثر متانة مع البيئات الجديدة من خلال استراتيجيات استكشاف مُكتسبة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار