تعلم كوبمان Q: التعلم التقويمي غير المباشر من خلال التماثلات الديناميكية

يُستخدَم التعلم التقويمي غير المتصل (Offline Reinforcement Learning) لتدريب السياسات باستخدام مجموعات بيانات كبيرة دون الحاجة إلى تفاعل مع البيئة. وبعد تدريب هذه السياسات، يمكن نشرها في بيئات واقعية حيث يكون التفاعل مكلفًا أو خطرًا. ومع ذلك، فإن الخوارزميات الحالية تتعرض لظاهرة الالتصاق الزائد (over-fitting) ببيانات التدريب، مما يؤدي إلى أداء ضعيف عند نشرها في بيئات تختلف عن البيئة التدريبية (Out-of-Distribution Generalizations). نهدف إلى التغلب على هذه القيود من خلال تعلُّم تمثيل خفي كوبمان (Koopman latent representation)، والذي يمكّننا من استنتاج التماثلات (symmetries) للديناميكية الكامنة للنظام. ثم تُستخدَم هذه التماثلات لتوسيع مجموعة البيانات غير المتصلة (التي كانت ثابتة سابقًا) أثناء عملية التدريب؛ وهذا يشكّل إطارًا جديدًا للتكبير البيانات (data augmentation) يعكس ديناميكية النظام، ويُفهم بالتالي كاستكشاف لفضاء الطور (phase space) للبيئة. وللحصول على هذه التماثلات، نستخدم نظرية كوبمان، حيث تمثل الديناميات غير الخطية من خلال مؤثر خطي يعمل على فضاء دوال القياس الخاصة بالنظام، وبالتالي يمكن استخلاص التماثلات الديناميكية مباشرة. ونقدّم نتائج نظرية جديدة حول وجود وطبيعة التماثلات ذات الصلة بأنظمة التحكم، مثل بيئات التعلم التقويمي. علاوةً على ذلك، نقيّم طريقتنا تجريبيًا على عدة مهام وبيانات معيارية للتعلم التقويمي غير المتصل، تشمل D4RL وMetaworld وRobosuite، ونجد أن استخدام إطارنا يُحسّن باستمرار الأداء المُحَسَّن لطرق التعلم التقويمي الخالية من النموذج (model-free Q-learning).