13日前

潜在フローを用いた強化学習

Wenling Shang, Xiaofei Wang, Aravind Srinivas, Aravind Rajeswaran, Yang Gao, Pieter Abbeel, Michael Laskin
潜在フローを用いた強化学習
要約

時系列情報は強化学習(RL)において効果的な方策を学習する上で不可欠である。しかし、現在の最先端RLアルゴリズムは、そのような情報が状態空間の一部として与えられていると仮定するか、ピクセルから学習する場合、単純なヒューリスティックであるフレームスタック(frame-stacking)を用いて画像観測に含まれる時系列情報を間接的に捉えようとする。このアプローチは、最新の動画分類アーキテクチャの主流である「光流(optical flow)」や「二ストリームアーキテクチャ(two-stream architectures)」などの手法を用いて時系列情報を明示的に符号化するというパラダイムと対照的である。最先端の動画分類アーキテクチャに着想を得て、本研究では、潜在ベクトルの差分を通じて時系列情報を明示的に符号化する新しいRL用ネットワークアーキテクチャ「Flow of Latents for Reinforcement Learning(Flare)」を提案する。本研究では、Flareが(i)状態速度を明示的に利用せずに、位置情報のみを用いて状態ベースRLにおいて最適な性能を回復できること、(ii)DeepMind Controlベンチマークスイートにおける困難な連続制御タスク(四足歩行、ホッパーの跳躍、フィンガーの硬い回転、振り子のスイング、ウォーカーの走行)で最先端の性能を達成し、特にサンプル効率が極めて高いモデルフリーのピクセルベースRLアルゴリズムとして、500kステップおよび1Mステップのベンチマークでそれぞれ前人最高のモデルフリー手法を1.9倍および1.5倍の性能で上回ること、(iv)Rainbow DQNに拡張した場合、100Mタイムステップのベンチマークにおいて8つの困難なAtariゲームのうち5つでその最先端レベルのベースラインを上回ることを示した。

潜在フローを用いた強化学習 | 最新論文 | HyperAI超神経