
要約
強化学習は意思決定問題を解決し、事前に設計された報酬関数に従ってエージェントが環境内で行動するように訓練することができる。しかし、報酬が極めて疎(sparse)である場合、エージェントが環境探索中に報酬に遭遇しないという問題が生じ、このアプローチは著しく困難になる。このような問題への解決策として、エージェントに内部的動機(intrinsic motivation)を付与し、報酬に遭遇する可能性の高い情報に基づいた探索を可能にする方法が挙げられる。ノベルティ検出(novelty detection)は、内部的動機研究の有望な分野の一つである。本研究では、ノベルティ指標として教師モデルと予測モデル間の蒸留誤差(distillation error)を用いる、自己教師学習型ネットワーク蒸留(Self-supervised Network Distillation: SND)という新しい内部的動機アルゴリズムのクラスを提案する。この目的に向け、既存の3つの自己教師学習手法を適応し、探索が困難とされる10の環境において実験的に検証した。実験結果から、本手法はベースラインモデルと比較して、同じ学習時間内により速い報酬の増加とより高い外部報酬を達成していることが示された。これは、報酬が極めて疎な環境において探索性能が向上していることを示唆している。さらに、本研究で用いた分析手法により、提案モデルの挙動に対する有益な説明的知見が得られ、モデルの内部メカニズムの理解が深まった。