2ヶ月前

Conv-TasNet: 理想的な時間周波数振幅マスキングを超える音声分離手法

Yi Luo; Nima Mesgarani
Conv-TasNet: 理想的な時間周波数振幅マスキングを超える音声分離手法
要約

単チャンネル、話者独立の音声分離手法は最近大きな進歩を遂げています。しかし、これらの手法の精度、遅延、および計算コストは依然として十分ではありません。これまでの多くの手法では、混合信号の時間周波数表現を用いて分離問題を定式化しており、これには信号の位相と振幅の解離、音声分離に対する時間周波数表現の非最適性、スペクトログラム計算における長い遅延などのいくつかの欠点があります。これらの欠点に対処するため、私たちは完全畳み込み時間領域オーディオ分離ネットワーク(Conv-TasNet)という深層学習フレームワークを提案します。これはエンドツーエンドで時間領域での音声分離を行うためのものです。Conv-TasNetは線形エンコーダーを使用して、個々の話者を分離するために最適化された音声波形の表現を生成します。話者の分離は、エンコーダー出力に一連の重み付け関数(マスク)を適用することで達成されます。変更されたエンコーダー表現はその後、線形デコーダーを使用して元の波形に戻されます。マスクは1次元拡張畳み込みブロックから構成される時系列畳み込みネットワーク(Temporal Convolutional Network: TCN)によって見つけられます。これによりネットワークは音声信号の長期依存関係をモデル化しつつ、小さなモデルサイズを維持することができます。提案されたConv-TasNetシステムは、2人および3人の話者混合信号において従来の時間周波数マスキング手法よりも大幅に優れた性能を示しています。さらに、客観的な歪み測定と人間リスナーによる主観的な品質評価によって評価された2人の話者音声分離においても、いくつかの理想的な時間周波数振幅マスクを超える性能を発揮しています。最後に、Conv-TasNetは著しく小さなモデルサイズと短い最小遅延を持つため、オフラインおよびリアルタイムでの音声分離アプリケーションに適した解決策となっています。