深層強化学習による人間レベルの制御
強化学習の理論は、動物行動に関する心理学的および神経科学的視点に深く根ざした、エージェントが環境を最適に制御する方法についての規範的説明を提供している。しかし、現実世界に近い複雑な状況において強化学習を成功裏に活用するためには、エージェントが高次元の感覚入力から環境の効率的な表現を抽出し、それらを用いて過去の経験を新たな状況に一般化しなければならないという困難な課題に直面する。驚くべきことに、人間や他の動物は、強化学習と階層的感覚処理システムの調和的な統合によって、この問題を解決しているように思われる。特に、ドパミン作動性ニューロンが発信するパルス信号と時系列差分強化学習アルゴリズムとの間にある顕著な類似性が、多数の神経データによって裏付けられている。これまでの強化学習エージェントは、有用な特徴量を手作業で設計する必要がある領域、あるいは状態空間が完全に観測可能で低次元である領域においては一定の成果を上げてきたが、その適用範囲は限られていた。本研究では、深層ニューラルネットワークの訓練技術の最新進展を活用し、高次元の感覚入力からエンドツーエンドの強化学習によって成功する方策(ポリシー)を直接学習できる、新たな人工エージェント「ディープQネットワーク(Deep Q-Network)」を構築した。このエージェントを古典的なAtari 2600ゲームという困難な領域で検証した結果、エージェントがピクセル情報とゲームスコアのみを入力として受け取り、同一のアルゴリズム、ネットワーク構造およびハイパーパラメータを用いて、49種類のゲームにおいて過去のすべてのアルゴリズムを上回り、プロの人類ゲームプレイヤーと同等の性能を達成することを示した。本研究は、高次元の感覚入力と行動との間の隔たりを克服し、多様な難解なタスクにおいて優れた性能を学習可能な、初めての人工エージェントの実現に貢献した。