2ヶ月前

6つのニューロンでアタリをプレイする

Giuseppe Cuccu; Julian Togelius; Philippe Cudre-Mauroux
6つのニューロンでアタリをプレイする
要約

深層強化学習は、Atariゲームのような視覚に基づく問題に適用され、ピクセルを直接行動にマッピングします。内部的には、深層ニューラルネットワークが有用な情報を抽出し、その情報に基づいて意思決定を行う責任を担っています。画像処理と意思決定を分離することで、各タスクの複雑さをよりよく理解することができ、さらに人間にとって理解しやすく、汎化性能も高い可能性のある小さな方策表現を見つけることができます。この目的のために、我々は強化学習における方策近似において、方策とコンパクトな状態表現を別々にかつ同時に学習する新しい手法を提案します。状態表現は、2つの新規アルゴリズムに基づくエンコーダによって生成されます:Increasing Dictionary Vector Quantization(辞書サイズ増加型ベクトル量子化)はエンコーダが時間とともに辞書サイズを拡大し、オープンエンドのオンライン学習環境で新たに現れる観測値に対応できるようにします;Direct Residuals Sparse Coding(直接残差スパースコーディング)は再構成誤差最小化ではなく、最大限の情報包含を目指して観測値を符号化します。エンコーダはコードのスパーシティ最大化のためにオンラインで観測値を選択して訓練を行います。辞書サイズが増加すると、エンコーダがニューラルネットワークに対して徐々に大きな入力を生成します。これに対処するために、Exponential Natural Evolution Strategies(指数的自然進化戦略)アルゴリズムの変種を使用し、実行中に確率分布の次元性を適応的に調整します。我々は6〜18個のニューロン(ゲームの制御方法により異なる)しか持たない小さなニューラルネットワークを使用してAtariゲームの選択肢でシステムをテストしました。これらのネットワークは依然として、2桁多いニューロン数を持つ最先端技術と比較可能な結果—場合によってはそれ以上の結果—を得ることができます。