Offline Rl On D4Rl
評価指標
Average Reward
評価結果
このベンチマークにおける各モデルのパフォーマンス結果
比較表
モデル名 | Average Reward |
---|---|
decision-transformer-reinforcement-learning | 73.5 |
koopman-q-learning-offline-reinforcement-1 | 81.8 |
any-step-dynamics-model-improves-future | 81 |
このベンチマークにおける各モデルのパフォーマンス結果
モデル名 | Average Reward |
---|---|
decision-transformer-reinforcement-learning | 73.5 |
koopman-q-learning-offline-reinforcement-1 | 81.8 |
any-step-dynamics-model-improves-future | 81 |