
要約
一般的再帰ニューラルネットワークアーキテクチャは、状態計算の並列化が困難であるため、スケーリング性能が悪化する傾向があります。本研究では、モデル容量とスケーラビリティをバランスよく保つ軽量な再帰ユニットであるSimple Recurrent Unit (SRU) を提案します。SRUは表現力豊かな再帰性を提供し、高並列実装を可能にするとともに、深層モデルの学習を容易にするための慎重な初期化が施されています。私たちは複数の自然言語処理タスクにおいてSRUの有効性を示しています。SRUは分類や質問応答データセットでcuDNN最適化されたLSTMに対して5~9倍の高速化を達成しており、LSTMや畳み込みモデルよりも優れた結果を提供しています。また、翻訳タスクにおいてもSRUをアーキテクチャに組み込むことで、Transformerモデルに対して平均0.7 BLEU点の改善を得ています。