17日前

IQ-Learn:模倣のための逆ソフト-Q学習

Divyansh Garg, Shuvam Chakraborty, Chris Cundy, Jiaming Song, Matthieu Geist, Stefano Ermon
IQ-Learn:模倣のための逆ソフト-Q学習
要約

多くの順次的意思決定問題(例:ロボット制御、ゲームプレイ、順次予測)において、タスクに関する有用な情報を含む人間や専門家によるデータが利用可能である。しかし、高次元で複雑なダイナミクスを有する環境においては、少量の専門家データから模倣学習(Imitation Learning, IL)を実行することは困難である。行動クラッシフィケーション(Behavioral Cloning)は、実装が簡単かつ収束が安定するという利点から広く用いられているが、環境のダイナミクスに関する情報を一切活用しない。一方、ダイナミクス情報を活用する多くの既存手法は、報酬関数と方策近似器の間で敵対的最適化が行われるため、実用的な訓練が困難である、あるいはバイアスが大きく分散が大きな勾配推定器を用いるため、性能が不安定である。本研究では、報酬と方策を暗黙的に表現する単一のQ関数を学習することで、敵対的学習を回避するダイナミクスに配慮した模倣学習手法を提案する。標準的なベンチマークにおいて、我々が暗黙的に学習した報酬は真の報酬と高い正の相関を示しており、この手法が逆強化学習(Inverse Reinforcement Learning, IRL)にも応用可能であることを示している。提案手法である逆ソフトQ学習(Inverse soft-Q learning, IQ-Learn)は、オフラインおよびオンラインの模倣学習設定において、既存手法を大きく上回る最先端の性能を達成しており、必要な環境との相互作用回数の点でも、高次元空間におけるスケーラビリティの点でも、しばしば3倍以上優れている。