HyperAIHyperAI

Command Palette

Search for a command to run...

IQ-Learn: التعلم العكسي الناعم Q لمحاكاة السلوك

Divyansh Garg Shuvam Chakraborty Chris Cundy Jiaming Song Matthieu Geist Stefano Ermon

الملخص

في العديد من مشكلات اتخاذ القرار التسلسلي (مثل التحكم في الروبوتات، لعب الألعاب، التنبؤ التسلسلي)، تتوفر بيانات بشرية أو خبراء تحتوي على معلومات مفيدة حول المهمة. ومع ذلك، يمكن أن تكون عملية التعلم بالمحاكاة (IL) من كمية صغيرة من البيانات الخبيرة تحديًا في البيئات عالية الأبعاد ذات الديناميكيات المعقدة. تُعد طريقة نسخ السلوك (Behavioral Cloning) طريقة بسيطة تُستخدم على نطاق واسع بفضل سهولة تنفيذها وتقاربها المستقر، لكنها لا تستخدم أي معلومات تتعلق بديناميكيات البيئة. تُعاني العديد من الطرق الحالية التي تستفيد من معلومات الديناميكيات من صعوبة التدريب عمليًا بسبب عملية التحسين التنافسي بين مُقربات المكافأة والسياسة، أو بسبب مُقدّرات المُشتقة المتحيزة والمتقلبة للغاية. نقدّم طريقة للتعلم بالمحاكاة المُدركة للديناميكيات، تتجنب التدريب التنافسي من خلال تعلُّم دالة Q واحدة، تمثل بشكل ضمني كلًا من المكافأة والسياسة. على معايير قياسية، تُظهر المكافآت المُتعلمة ضمنيًا ارتباطًا إيجابيًا عاليًا مع المكافآت الحقيقية، مما يدل على إمكانية استخدام طريقتنا أيضًا في التعلم بالمحاكاة العكسي (IRL). تحقق طريقتنا، المعروفة بـ "التعلم العكسي الناعم Q" (IQ-Learn)، نتائجًا رائدة في بيئات التعلم بالمحاكاة الساكنة (offline) والمتسلسلة (online)، وتتفوّق بشكل كبير على الطرق الحالية من حيث عدد التفاعلات المطلوبة مع البيئة، وكذلك في قابلية التوسع في الفضاءات عالية الأبعاد، غالبًا بأكثر من 3 أضعاف.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp