Command Palette
Search for a command to run...
SkillRL: تطوير الوكلاء من خلال التعلم المعزز بالمهارات المتكرر المُعزَّز بالمهارات
SkillRL: تطوير الوكلاء من خلال التعلم المعزز بالمهارات المتكرر المُعزَّز بالمهارات
الملخص
أظهرت وكلاء نماذج اللغة الكبيرة (LLM) نتائج مذهلة في المهام المعقدة، إلا أنها غالبًا ما تعمل بشكل منعزل، ولا تستفيد من الخبرات السابقة. تركز الطرق القائمة على الذاكرة حاليًا على تخزين المسارات الخام، التي تكون غالبًا متكررة وتحتوي على ضوضاء عالية، مما يمنع الوكلاء من استخلاص أنماط سلوكية عالية المستوى قابلة لإعادة الاستخدام، وهي ضرورية لتحقيق التعميم. في هذا البحث، نقترح إطارًا يُسمى SkillRL، يُسهم في سد الفجوة بين الخبرة الخام وتحسين السياسة من خلال اكتشاف المهارات تلقائيًا وتطورها بشكل تكراري. يُقدّم نهجنا آلية استخلاص تعتمد على الخبرة لبناء مكتبة مهارات هرمية تُسمى SkillBank، واستراتيجية استرجاع متكيفة لاستخلاص قواعد توجيهية عامة ومتخصصة حسب المهمة، بالإضافة إلى آلية تطور تكراري تسمح لمكتبة المهارات بأن تتطور مع سياسة الوكيل أثناء التعلم المعزز. تُعد هذه الابتكارات مُقلّلة بشكل كبير من حجم الاستهلاك الناتج عن الرموز (token footprint)، مع تعزيز فائدة الاستدلال. أظهرت النتائج التجريبية على منصات ALFWorld وWebShop وسبع مهام مدعومة بالبحث أن SkillRL تحقق أداءً متقدمًا على مستوى الحد الأقصى (state-of-the-art)، وتتفوق على النماذج الأساسية القوية بنسبة تزيد عن 15.3٪، مع الحفاظ على المرونة والأداء القوي مع زيادة تعقيد المهام. يمكن الاطلاع على الشفرة المصدرية عبر الرابط التالي: https://url.com