Continuous Control On Lunar Lander Openai Gym

Score

평가 결과

이 벤치마크에서 각 모델의 성능 결과

		Paper Title
SAC	284.59±0.97	Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor
TD3	277.26±4.17	Addressing Function Approximation Error in Actor-Critic Methods
DDPG	256.98±14.38	Continuous control with deep reinforcement learning
PPO	175.14±44.94	Proximal Policy Optimization Algorithms
MAC	163.5	Mean Actor Critic

0 of 5 row(s) selected.