15日前

音声分離におけるアテンションの重要性

Cem Subakan, Mirco Ravanelli, Samuele Cornell, Mirko Bronzi, Jianyuan Zhong
音声分離におけるアテンションの重要性
要約

再帰型ニューラルネットワーク(RNN)は、シーケンス対シーケンス学習において長年にわたり主流のアーキテクチャとして用いられてきた。しかし、RNNは本質的に逐次処理モデルであり、計算の並列化が困難である。これに対して、トランスフォーマーは標準的なRNNに対する自然な代替手段として注目されており、再帰的計算をマルチヘッドアテンション機構に置き換える。本論文では、音声分離を目的とした新たなRNNフリーのトランスフォーマー基盤型ニューラルネットワーク「SepFormer」を提案する。SepFormerは、マルチスケールアプローチを用いたトランスフォーマー構造により、短距離および長距離の依存関係を同時に学習する。提案モデルは、標準的なWSJ0-2mixおよびWSJ0-3mixデータセットにおいて、最先端(SOTA)の性能を達成した。具体的には、WSJ0-2mixにおいてSI-SNRiが22.3 dB、WSJ0-3mixにおいては19.5 dBを達成した。SepFormerはトランスフォーマーの並列処理の利点を引き継ぎ、符号化表現を8倍ダウンサンプリングしても競争力のある性能を維持する。したがって、最新の音声分離システムと同等の性能を発揮しつつ、大幅に高速かつメモリ消費が少ないという利点を有している。

音声分離におけるアテンションの重要性 | 最新論文 | HyperAI超神経