HyperAIHyperAI

Command Palette

Search for a command to run...

自己注意メカニズムを用いた音声分離の探求

Cem Subakan Mirco Ravanelli Samuele Cornell Francois Grondin Mirko Bronzi

概要

トランスフォーマーは深層学習における顕著な進展を可能にした。並列処理の利点を活かしつつ、多くのタスクにおいて再帰型および畳み込み型モデルを上回る性能を発揮している。最近、我々はWSJ0-2/3 Mixデータセットを用いた音声分離において最先端の性能を達成する「SepFormer」を提案した。本論文では、音声分離におけるトランスフォーマーの特性について深く検討する。特に、前回のSepFormerに関する知見を、LibriMix、WHAM!、WHAMR!といったより困難なノイズ混在およびノイズ混在リバーバント環境を含むデータセット上でさらに検証している。また、モデルを音声強調(speech enhancement)にも拡張し、ノイズ除去およびリバーバーション除去の実験的証拠を提示している。さらに、音声分離分野において初めて、効率的な自己注意機構(self-attention mechanism)であるLinformer、Lonformer、Reformerの利用を検討した。これらの機構はメモリ消費を顕著に削減することが明らかになった。例えば、Reformerに基づく注意機構は、WSJ0-2Mixデータセットにおいて広く用いられるConv-TasNetモデルを上回る性能を発揮しつつ、推論速度が速く、メモリ消費量は同程度であることを示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています