HyperAIHyperAI

Command Palette

Search for a command to run...

音声分離におけるアテンションの重要性

Cem Subakan Mirco Ravanelli Samuele Cornell Mirko Bronzi Jianyuan Zhong

概要

再帰型ニューラルネットワーク(RNN)は、シーケンス対シーケンス学習において長年にわたり主流のアーキテクチャとして用いられてきた。しかし、RNNは本質的に逐次処理モデルであり、計算の並列化が困難である。これに対して、トランスフォーマーは標準的なRNNに対する自然な代替手段として注目されており、再帰的計算をマルチヘッドアテンション機構に置き換える。本論文では、音声分離を目的とした新たなRNNフリーのトランスフォーマー基盤型ニューラルネットワーク「SepFormer」を提案する。SepFormerは、マルチスケールアプローチを用いたトランスフォーマー構造により、短距離および長距離の依存関係を同時に学習する。提案モデルは、標準的なWSJ0-2mixおよびWSJ0-3mixデータセットにおいて、最先端(SOTA)の性能を達成した。具体的には、WSJ0-2mixにおいてSI-SNRiが22.3 dB、WSJ0-3mixにおいては19.5 dBを達成した。SepFormerはトランスフォーマーの並列処理の利点を引き継ぎ、符号化表現を8倍ダウンサンプリングしても競争力のある性能を維持する。したがって、最新の音声分離システムと同等の性能を発揮しつつ、大幅に高速かつメモリ消費が少ないという利点を有している。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
音声分離におけるアテンションの重要性 | 記事 | HyperAI超神経