15日前

音声分離のための上位優先アテンションを備えた効率的なエンコーダデコーダアーキテクチャ

Kai Li, Runxuan Yang, Xiaolin Hu
音声分離のための上位優先アテンションを備えた効率的なエンコーダデコーダアーキテクチャ
要約

深層ニューラルネットワークは、音声分離タスクにおいて優れた成果を示している。しかし、実世界の応用において、高い性能を維持しつつモデルの複雑さを低く抑えることは依然として困難な課題である。本論文では、脳のトップダウン注目メカニズムを模倣することで、モデル複雑度を低減しつつ性能を損なわない効率的なエンコーダデコーダアーキテクチャ、TDANetを提案する。TDANetにおけるトップダウン注目は、グローバルアテンション(GA)モジュールとカスケード型ローカルアテンション(LA)層によって抽出される。GAモジュールはマルチスケールの音響特徴を入力として、グローバルアテンション信号を抽出し、それを直接的なトップダウン接続を通じて異なるスケールの特徴に調制する。一方、LA層は隣接する層の特徴を入力として、ローカルアテンション信号を抽出し、その信号をトップダウンの方式で横方向の入力を調制する。3つのベンチマークデータセットにおける実験結果から、TDANetは従来の最先端(SOTA)手法と同等の分離性能を一貫して達成しつつ、より高い効率性を実現した。特に、TDANetの乗算累加演算(MACs)は、従来のSOTAモデルの一つであるSepformerの5%にまで低減されており、CPU推論時間も同様にSepformerの10%にまで短縮された。さらに、大規模版のTDANetは3つのデータセットにおいてSOTAの結果を達成したが、そのMACsは依然としてSepformerの10%にとどまり、CPU推論時間は同24%に留まった。

音声分離のための上位優先アテンションを備えた効率的なエンコーダデコーダアーキテクチャ | 最新論文 | HyperAI超神経