
要約
可変長の系列データを処理することは、音声認識、言語モデリング、生成画像モデリング、機械翻訳などの幅広い応用分野における主要な課題である。本稿では、この課題に対処するために新しい再帰型ニューラルネットワーク(RNN)アーキテクチャであるFast-Slow RNN(FS-RNN)を提案する。FS-RNNは異なる時間スケールで系列データを処理し、1つの時間ステップから次の時間ステップへの複雑な遷移関数を学習することで、マルチスケールRNNと深層遷移RNNの両方の強みを取り入れている。我々はFS-RNNを2つの文字レベル言語モデリングデータセット、Penn TreebankおよびHutter Prize Wikipediaで評価した結果、それぞれ$1.19$ビット/文字(BPC)と$1.25$ BPCという最先端の結果を達成した。さらに、2つのFS-RNNのアンサンブルによりHutter Prize Wikipediaで$1.20$ BPCが達成され、BPC指標に基づいて最も優れた圧縮アルゴリズムを上回った。また、FS-RNNの学習動態とネットワーク動態について実証的な調査を行い、他のRNNアーキテクチャに比べて性能が向上した理由を説明している。我々の手法は一般的であり、任意の種類のRNNセルがFS-RNNアーキテクチャの構築ブロックとして使用可能であるため、異なるタスクに柔軟に適用できる。