HyperAIHyperAI

Command Palette

Search for a command to run...

تعلم كوبمان Q: التعلم التقويمي غير المباشر من خلال التماثلات الديناميكية

Matthias Weissenbacher Samarth Sinha Animesh Garg Yoshinobu Kawahara

الملخص

يُستخدَم التعلم التقويمي غير المتصل (Offline Reinforcement Learning) لتدريب السياسات باستخدام مجموعات بيانات كبيرة دون الحاجة إلى تفاعل مع البيئة. وبعد تدريب هذه السياسات، يمكن نشرها في بيئات واقعية حيث يكون التفاعل مكلفًا أو خطرًا. ومع ذلك، فإن الخوارزميات الحالية تتعرض لظاهرة الالتصاق الزائد (over-fitting) ببيانات التدريب، مما يؤدي إلى أداء ضعيف عند نشرها في بيئات تختلف عن البيئة التدريبية (Out-of-Distribution Generalizations). نهدف إلى التغلب على هذه القيود من خلال تعلُّم تمثيل خفي كوبمان (Koopman latent representation)، والذي يمكّننا من استنتاج التماثلات (symmetries) للديناميكية الكامنة للنظام. ثم تُستخدَم هذه التماثلات لتوسيع مجموعة البيانات غير المتصلة (التي كانت ثابتة سابقًا) أثناء عملية التدريب؛ وهذا يشكّل إطارًا جديدًا للتكبير البيانات (data augmentation) يعكس ديناميكية النظام، ويُفهم بالتالي كاستكشاف لفضاء الطور (phase space) للبيئة. وللحصول على هذه التماثلات، نستخدم نظرية كوبمان، حيث تمثل الديناميات غير الخطية من خلال مؤثر خطي يعمل على فضاء دوال القياس الخاصة بالنظام، وبالتالي يمكن استخلاص التماثلات الديناميكية مباشرة. ونقدّم نتائج نظرية جديدة حول وجود وطبيعة التماثلات ذات الصلة بأنظمة التحكم، مثل بيئات التعلم التقويمي. علاوةً على ذلك، نقيّم طريقتنا تجريبيًا على عدة مهام وبيانات معيارية للتعلم التقويمي غير المتصل، تشمل D4RL وMetaworld وRobosuite، ونجد أن استخدام إطارنا يُحسّن باستمرار الأداء المُحَسَّن لطرق التعلم التقويمي الخالية من النموذج (model-free Q-learning).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp