Openai Gym On Ant V4

Average Return

평가 결과

이 벤치마크에서 각 모델의 성능 결과

모델 이름	Average Return	Paper Title
PPO	608.97	Proximal Policy Optimization Algorithms
DDPG	1712.12	Continuous control with deep reinforcement learning
TD3	5942.55	Addressing Function Approximation Error in Actor-Critic Methods
MEow	6586.33	Maximum Entropy Reinforcement Learning via Energy-Based Normalizing Flow
SAC	5208.09	Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

0 of 5 row(s) selected.