
要約
信頼領域ポリシー最適化(Trust Region Policy Optimization: TRPO)の最も成功した変種および改良版である近傍ポリシー最適化(Proximal Policy Optimization: PPO)は、効率的なデータ利用、実装の容易さ、並列処理の良さなどの利点から、様々な分野で広く応用されています。本論文では、総変動距離の二乗の下限となる一階勾配強化学習アルゴリズムである「ペナルティ付きポイント確率距離によるポリシー最適化」(Policy Optimization with Penalized Point Probability Distance: POP3D)を提案し、これもまた強力な変種として位置づけます。まず、当研究が部分的に動機付けられたいくつかの一般的に使用されるアルゴリズムの欠点について述べます。次に、これらの欠点を克服するためにPOP3Dを適用する方法について説明します。さらに、解多様体の観点からそのメカニズムを詳細に考察します。最後に、共通のベンチマークに基づいて最新のアルゴリズム間で定量的な比較を行います。シミュレーション結果は、POP3DがPPOと比較して非常に競争力があることを示しています。また、私たちのコードはhttps://github.com/paperwithcode/pop3dで公開されています。