11日前

Koopman Q学習:ダイナミクスの対称性を用いたオフライン強化学習

Matthias Weissenbacher, Samarth Sinha, Animesh Garg, Yoshinobu Kawahara
Koopman Q学習:ダイナミクスの対称性を用いたオフライン強化学習
要約

オフライン強化学習は、環境との相互作用を必要とせずに、大規模なデータセットを活用してポリシーを学習する手法である。学習されたポリシーは、相互作用が高コストまたは危険な現実世界の設定において実装可能である。しかし、現行のアルゴリズムは訓練データセットに過剰適合(over-fit)し、環境の分布外(out-of-distribution)の一般化に対しては性能が著しく低下するという問題を抱えている。本研究では、システムの内在的動的特性に内在する対称性を推定可能なコープマン(Koopman)潜在表現を学習することで、この限界を克服することを目指す。得られた対称性を活用し、訓練中に従来の静的オフラインデータセットを動的に拡張するという、新たなデータ拡張フレームワークを構築する。このフレームワークはシステムの動的特性を反映しており、環境の位相空間における探索と解釈できる。対称性の推定には、非線形動的システムを測定関数空間上の線形作用素として表現するコープマン理論を用いる。これにより、強化学習などの制御系に特有の対称性の存在と性質に関する新たな理論的知見を提示する。さらに、D4RL、Metaworld、Robosuiteなどの標準的なオフライン強化学習ベンチマークタスクおよびデータセットを用いた実証評価を通じて、本手法がモデルフリーQ学習法の最先端性能を一貫して向上させることを確認した。

Koopman Q学習:ダイナミクスの対称性を用いたオフライン強化学習 | 最新論文 | HyperAI超神経