
ディープ強化学習は、幅広いタスクにおいて効果的な方策(policy)を学習できるが、不安定性およびハイパーパラメータに対する敏感さのため、実用上非常に難しいとされてきた。その原因は依然として明確でない。標準的な教師あり学習手法(例えばバンディット問題における手法)では、オンポリシー(on-policy)によるデータ収集が、「ハードネガティブ(hard negatives)」と呼ばれる情報を提供し、実際に方策が訪れる可能性の高い状態と行動においてモデルを正確に修正する。この現象を我々は「補正フィードバック(corrective feedback)」と呼ぶ。本研究では、ブートストラップに基づくQ学習アルゴリズムが、この補正フィードバックの恩恵を必ずしも受けるわけではないこと、また、アルゴリズム自身が収集した経験に基づく学習だけではQ関数の誤差を十分に修正できないことを示す。実際、Q学習および関連する手法は、エージェントが収集する経験の分布と、その経験に基づいて学習によって導かれる方策との間に病理的な相互作用を示す可能性があり、ノイズの多い、疎な、または遅延する報酬から学習する場合、不安定性、最適解への非収束、劣悪な性能といった問題を引き起こす。本研究では、この問題の存在を理論的および実証的に示す。さらに、特定のデータ分布の修正がこの問題を緩和できることを示す。これらの観察に基づき、我々は新たなアルゴリズム「DisCor(Distribution Correction)」を提案する。DisCorは、この最適な分布の近似を計算し、学習に用いる遷移データを再重み付けすることで、マルチタスク学習やノイズのある報酬信号からの学習といった、多様な困難な強化学習設定において顕著な性能向上を達成する。本研究の要約を紹介するブログ記事は以下のリンクから閲覧可能である:https://bair.berkeley.edu/blog/2020/03/16/discor/.