
要約
ニューラルネットワークは、画像、音声、自然言語理解における多くの難しい学習タスクに対して効果的で柔軟なモデルです。しかし、その成功にもかかわらず、ニューラルネットワークの設計は依然として困難です。本論文では、再帰型ネットワーク(RNN)を使用してニューラルネットワークのモデル記述を生成し、強化学習によってこのRNNを訓練して、生成されたアーキテクチャの期待される精度を検証セット上で最大化します。CIFAR-10データセットにおいて、当手法はゼロから始めて、テストセット精度において最良の人間が考案したアーキテクチャに匹敵する新しいネットワークアーキテクチャを設計できます。当手法のCIFAR-10モデルはテスト誤差率3.65を達成しており、同様のアーキテクチャスキームを使用した従来の最先端モデルよりも0.09パーセント優れており、1.05倍速いです。Penn Treebankデータセットにおいても、当手法のモデルは広く使用されているLSTMセルや他の最先端ベースラインを超える新しい再帰型セルを構成できます。当セルはPenn Treebankでのテストセット困惑度62.4を達成しており、従来の最先端モデルよりも3.6の困惑度が優れています。また、このセルはPTB上の文字言語モデリングタスクにも転用可能であり、最先端の困惑度1.214を達成しています。