
要約
私たちは、シーケンスモデリングのための再帰型ニューラルネットワークアーキテクチャである乗法LSTM(mLSTM)を紹介します。このアーキテクチャは、長期短期記憶(LSTM)と乗法再帰型ニューラルネットワークの特徴を組み合わせています。mLSTMの特徴は、各可能な入力に対して異なる再帰遷移関数を持つ能力にあります。これは、自己回帰密度推定においてより表現力を有することを示唆しています。実証的に、mLSTMが文字レベル言語モデリングタスクにおいて標準的なLSTMやその深層変種よりも優れていることを示しています。本稿のバージョンでは、mLSTMを正則化し、text8データセットで1.27ビット/文字、Hutter Prizeデータセットで1.24ビット/文字の性能を達成しました。また、WikiText-2データセットに対して純粋なバイトレベルのmLSTMを適用し、文字レベルエントロピーが1.26ビット/文字となりました。これは単語レベルの困惑度が88.8に相当し、同じタスクにおいて類似した方法で正則化された単語レベルのLSTMと比較しても同等の性能を示しています。