6ヶ月前

概要

確率的方策（stochastic policy）は、探索能力および不確実性の定量化において優れた性質を有するため、広く応用されている。指数族に属する状態-行動同時分布を用いて方策分布をモデル化することで、探索の柔軟性や多モーダルな方策の学習が可能となり、深層強化学習（RL）における確率的アプローチの視点も自然に統合された。確率的推論と強化学習の間の密接な関係は、確率的最適化手法の進展を活用できる可能性をもたらしている。しかし、近年の研究は主に逆KLダイバージェンスの最小化に限定されており、これは信頼度を高めようとする性質を有するため、確率的方策の持つ利点を十分に発揮できず、その効果が低下する可能性がある。確率的方策の潜在能力を最大限に引き出し、より柔軟な特性を実現するためには、方策最適化の過程において異なる更新則を検討する強い動機がある。本論文では、粒子ベースの確率的方策最適化フレームワークであるParPIを提案する。この手法は、f-ダイバージェンスやワッサーシュタイン距離を含む広範なダイバージェンスや距離の利用を可能にし、学習された確率的方策のより適切な確率的挙動を実現できる。オンラインおよびオフラインの両設定における実験により、提案手法の有効性ならびに方策最適化における異なる乖離尺度の特性が示された。

ソースPDF