2ヶ月前
Seq-U-Net: 一次元因果U-Netによる効率的なシーケンスモデリング
Daniel Stoller; Mi Tian; Sebastian Ewert; Simon Dixon

要約
畳み込みニューラルネットワーク(CNN)の一種であるWavenetや時間畳み込みネットワーク(Temporal Convolutional Network: TCN)は、様々なシーケンスモデリングタスクにおいて良好な結果を示しています。しかし、これらのシーケンスにおける長期依存関係を効率的にモデル化することは依然として困難です。これらのモデルの受容野は層数とともに指数関数的に拡大しますが、各層で非常に長い特徴量のシーケンスに対する畳み込み計算は時間とメモリを大量に消費し、実際にはより長い受容野の使用を妨げています。効率を向上させるために、「遅い特徴量」仮説を利用します。この仮説によれば、多くの興味深い特徴量は時間とともに緩やかに変動します。これにより、複数の時間スケールで特徴量を計算するU-Netアーキテクチャを使用し、因果性のある畳み込みによって自己回帰的な状況に適応させます。我々のモデル(「Seq-U-Net」)は言語生成や音声生成など、様々なタスクに適用されます。TCNやWavenetと比較して、我々のネットワークは全てのタスクにおいて同等の性能を達成しながら、一貫してメモリ使用量と計算時間を削減します。特に音声生成実験では、学習と推論の速度が4倍以上向上しました。