التعلم التعزيزي الأقصى للإنتروبيا من خلال التدفق المُعَيَّنِ بِحَسَبِ الطاقة

الطرق الحالية لتعلم التعزيز (RL) القائم على أقصى الانتروبيا (MaxEnt) للأماكن الفعلية المستمرة تُصاغ عادةً بناءً على إطار العمل الممثل بالمساعد والناقد وتتم تحسينها من خلال خطوات بديلة لتقييم السياسة وتحسين السياسة. في خطوات تقييم السياسة، يتم تحديث الناقد لتقديم دالة Q اللينة. وفي خطوات تحسين السياسة، يتم ضبط المساعد وفقًا للدالة Q اللينة المحدثة. في هذا البحث، نقدم إطارًا جديدًا لـ MaxEnt RL مبني باستخدام الجريان الطبيعي القائم على الطاقة (EBFlow). يدمج هذا الإطار خطوات تقييم السياسة وخطوات تحسين السياسة، مما يؤدي إلى عملية تدريب ذات هدف واحد. طريقتنا تمكّن من حساب دالة القيمة اللينة المستخدمة في هدف تقييم السياسة دون الحاجة إلى تقريب مونت كارلو. بالإضافة إلى ذلك، يدعم هذا التصميم نمذجة التوزيعات الفعلية متعددة الأوضاع مع تسهيل عيّنة الفعل بكفاءة. لتقدير أداء طريقتنا، أجرينا التجارب على مجموعة مقاييس MuJoCo وأعداد من المهام الروبوتية عالية البعد المحاكاة بواسطة Omniverse Isaac Gym. أظهرت نتائج التقييم أن طريقتنا حققت أداءً أفضل مقارنة بالأسس التقليدية التي يتم استخدامها على نطاق واسع.