HyperAIHyperAI

Command Palette

Search for a command to run...

SkillRL: تطوير الوكلاء من خلال التعلم المعزز بالمهارات المتكرر المُعزَّز بالمهارات

الملخص

أظهرت وكلاء نماذج اللغة الكبيرة (LLM) نتائج مذهلة في المهام المعقدة، إلا أنها غالبًا ما تعمل بشكل منعزل، ولا تستفيد من الخبرات السابقة. تركز الطرق القائمة على الذاكرة حاليًا على تخزين المسارات الخام، التي تكون غالبًا متكررة وتحتوي على ضوضاء عالية، مما يمنع الوكلاء من استخلاص أنماط سلوكية عالية المستوى قابلة لإعادة الاستخدام، وهي ضرورية لتحقيق التعميم. في هذا البحث، نقترح إطارًا يُسمى SkillRL، يُسهم في سد الفجوة بين الخبرة الخام وتحسين السياسة من خلال اكتشاف المهارات تلقائيًا وتطورها بشكل تكراري. يُقدّم نهجنا آلية استخلاص تعتمد على الخبرة لبناء مكتبة مهارات هرمية تُسمى SkillBank، واستراتيجية استرجاع متكيفة لاستخلاص قواعد توجيهية عامة ومتخصصة حسب المهمة، بالإضافة إلى آلية تطور تكراري تسمح لمكتبة المهارات بأن تتطور مع سياسة الوكيل أثناء التعلم المعزز. تُعد هذه الابتكارات مُقلّلة بشكل كبير من حجم الاستهلاك الناتج عن الرموز (token footprint)، مع تعزيز فائدة الاستدلال. أظهرت النتائج التجريبية على منصات ALFWorld وWebShop وسبع مهام مدعومة بالبحث أن SkillRL تحقق أداءً متقدمًا على مستوى الحد الأقصى (state-of-the-art)، وتتفوق على النماذج الأساسية القوية بنسبة تزيد عن 15.3٪، مع الحفاظ على المرونة والأداء القوي مع زيادة تعقيد المهام. يمكن الاطلاع على الشفرة المصدرية عبر الرابط التالي: https://url.com


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp