17日前

自己注意メカニズムを用いた音声分離の探求

Cem Subakan, Mirco Ravanelli, Samuele Cornell, Francois Grondin, Mirko Bronzi
自己注意メカニズムを用いた音声分離の探求
要約

トランスフォーマーは深層学習における顕著な進展を可能にした。並列処理の利点を活かしつつ、多くのタスクにおいて再帰型および畳み込み型モデルを上回る性能を発揮している。最近、我々はWSJ0-2/3 Mixデータセットを用いた音声分離において最先端の性能を達成する「SepFormer」を提案した。本論文では、音声分離におけるトランスフォーマーの特性について深く検討する。特に、前回のSepFormerに関する知見を、LibriMix、WHAM!、WHAMR!といったより困難なノイズ混在およびノイズ混在リバーバント環境を含むデータセット上でさらに検証している。また、モデルを音声強調(speech enhancement)にも拡張し、ノイズ除去およびリバーバーション除去の実験的証拠を提示している。さらに、音声分離分野において初めて、効率的な自己注意機構(self-attention mechanism)であるLinformer、Lonformer、Reformerの利用を検討した。これらの機構はメモリ消費を顕著に削減することが明らかになった。例えば、Reformerに基づく注意機構は、WSJ0-2Mixデータセットにおいて広く用いられるConv-TasNetモデルを上回る性能を発揮しつつ、推論速度が速く、メモリ消費量は同程度であることを示した。

自己注意メカニズムを用いた音声分離の探求 | 最新論文 | HyperAI超神経