15日前

MossFormer2:TransformerとRNNフリー再帰ネットワークを統合した時間領域単一音声分離のための手法

Shengkui Zhao, Yukun Ma, Chongjia Ni, Chong Zhang, Hao Wang, Trung Hieu Nguyen, Kun Zhou, Jiaqi Yip, Dianwen Ng, Bin Ma
MossFormer2:TransformerとRNNフリー再帰ネットワークを統合した時間領域単一音声分離のための手法
要約

これまでに提案したMossFormerは、モノラル音声分離において有望な性能を達成している。しかし、このモデルは主に自己注意機構(self-attention)に基づくMossFormerモジュールを採用しており、長距離かつ粗粒度の依存関係に注目する傾向がある一方で、細粒度の再帰的パターンを効果的にモデル化する点に課題を抱えている。本論文では、MossFormerフレームワークに再帰モジュールを統合することで、長距離・粗粒度の依存関係と細粒度の再帰的パターンの両方をモデル化できる新しいハイブリッドモデルを提案する。従来の再帰接続を用いる再帰型ニューラルネットワーク(RNN)ではなく、再帰接続を用いない「RNNフリー」の再帰ネットワークとして注目されている、前向き順次記憶ネットワーク(Feedforward Sequential Memory Network: FSMN)に基づく再帰モジュールを導入する。本再帰モジュールは、ゲート付き畳み込みユニット(Gated Convolutional Unit: GCU)を用いた拡張された拡張畳み込みFSMNブロックと、密接接続(dense connections)を組み合わせて構成されており、情報の流れを制御するためのボトルネック層および出力層も追加されている。この再帰モジュールは、線形変換と畳み込み演算に依拠することで、全系列のシームレスかつ並列処理を実現する。統合されたMossFormer2ハイブリッドモデルは、MossFormerを著しく上回る性能を発揮し、WSJ0-2/3mix、Libri2Mix、WHAM!/WHAMR!のベンチマークにおいて、他の最先端手法をも凌駕している(https://github.com/modelscope/ClearerVoice-Studio)。

MossFormer2:TransformerとRNNフリー再帰ネットワークを統合した時間領域単一音声分離のための手法 | 最新論文 | HyperAI超神経