HyperAI

Offline Rl On D4Rl

المقاييس

Average Reward

النتائج

نتائج أداء النماذج المختلفة على هذا المعيار القياسي

جدول المقارنة
اسم النموذجAverage Reward
decision-transformer-reinforcement-learning73.5
koopman-q-learning-offline-reinforcement-181.8
any-step-dynamics-model-improves-future81