17日前

DNA:デュアルネットワークアーキテクチャを備えたプロキシポリシー最適化

Matthew Aitchison, Penny Sweetser
DNA:デュアルネットワークアーキテクチャを備えたプロキシポリシー最適化
要約

本稿では、深層アクタ・クリティック強化学習モデルにおいて、価値関数と方策を同時に学習する問題に焦点を当てる。我々は、この二つのタスク間にオーダーが1桁異なるノイズレベルの差が存在するため、従来の両者を共同で学習する手法が最適でないことを明らかにした。代わりに、これらのタスクを独立して学習しつつ、制約付きの蒸留(distillation)フェーズを導入することで、性能が著しく向上することを示した。さらに、方策勾配のノイズレベルは、より低い「分散」を有するリターン推定を使用することで低下することが分かった一方、価値学習のノイズレベルは、より低い「バイアス」を持つ推定によって低下することが明らかになった。これらの知見を統合し、近接方策最適化(Proximal Policy Optimization)に拡張した手法を、本研究では「二重ネットワークアーキテクチャ(Dual Network Architecture; DNA)」と呼ぶ。DNAは元の手法を大きく上回る性能を発揮し、テストした5つの環境のうち4つにおいて、広く使われているRainbow DQNアルゴリズムをも上回った。特に、より困難な確率的制御設定下でも、その優位性が顕著に現れた。

DNA:デュアルネットワークアーキテクチャを備えたプロキシポリシー最適化 | 最新論文 | HyperAI超神経