الملخص

أظهرت وكلاء نماذج اللغة الكبيرة (LLM) نتائج مذهلة في المهام المعقدة، إلا أنها غالبًا ما تعمل بشكل منعزل، ولا تستفيد من الخبرات السابقة. تركز الطرق القائمة على الذاكرة حاليًا على تخزين المسارات الخام، التي تكون غالبًا متكررة وتحتوي على ضوضاء عالية، مما يمنع الوكلاء من استخلاص أنماط سلوكية عالية المستوى قابلة لإعادة الاستخدام، وهي ضرورية لتحقيق التعميم. في هذا البحث، نقترح إطارًا يُسمى SkillRL، يُسهم في سد الفجوة بين الخبرة الخام وتحسين السياسة من خلال اكتشاف المهارات تلقائيًا وتطورها بشكل تكراري. يُقدّم نهجنا آلية استخلاص تعتمد على الخبرة لبناء مكتبة مهارات هرمية تُسمى SkillBank، واستراتيجية استرجاع متكيفة لاستخلاص قواعد توجيهية عامة ومتخصصة حسب المهمة، بالإضافة إلى آلية تطور تكراري تسمح لمكتبة المهارات بأن تتطور مع سياسة الوكيل أثناء التعلم المعزز. تُعد هذه الابتكارات مُقلّلة بشكل كبير من حجم الاستهلاك الناتج عن الرموز (token footprint)، مع تعزيز فائدة الاستدلال. أظهرت النتائج التجريبية على منصات ALFWorld وWebShop وسبع مهام مدعومة بالبحث أن SkillRL تحقق أداءً متقدمًا على مستوى الحد الأقصى (state-of-the-art)، وتتفوق على النماذج الأساسية القوية بنسبة تزيد عن 15.3٪، مع الحفاظ على المرونة والأداء القوي مع زيادة تعقيد المهام. يمكن الاطلاع على الشفرة المصدرية عبر الرابط التالي: https://url.com

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

SkillRL: تطوير الوكلاء من خلال التعلم المعزز بالمهارات المتكرر المُعزَّز بالمهارات

Peng Xia Jianwen Chen Hanyang Wang Jiaqi Liu Kaide Zeng Yu Wang Siwei Han Yiyang Zhou Xujiang Zhao Haifeng Chen3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

SkillRL: تطوير الوكلاء من خلال التعلم المعزز بالمهارات المتكرر المُعزَّز بالمهارات

Peng Xia Jianwen Chen Hanyang Wang Jiaqi Liu Kaide Zeng Yu Wang Siwei Han Yiyang Zhou Xujiang Zhao Haifeng Chen3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

SkillRL: تطوير الوكلاء من خلال التعلم المعزز بالمهارات المتكرر المُعزَّز بالمهارات

Peng Xia Jianwen Chen Hanyang Wang Jiaqi Liu Kaide Zeng Yu Wang Siwei Han Yiyang Zhou Xujiang Zhao Haifeng Chen3 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Peng Xia Jianwen Chen Hanyang Wang Jiaqi Liu Kaide Zeng Yu Wang Siwei Han Yiyang Zhou Xujiang Zhao Haifeng Chen

Peng Xia Jianwen Chen Hanyang Wang Jiaqi Liu Kaide Zeng Yu Wang Siwei Han Yiyang Zhou Xujiang Zhao Haifeng Chen

Peng Xia Jianwen Chen Hanyang Wang Jiaqi Liu Kaide Zeng Yu Wang Siwei Han Yiyang Zhou Xujiang Zhao Haifeng Chen