2ヶ月前

RTFS-Net: 高効率な音声-視覚的な音声分離のための再帰的な時間-周波数モデリング

Pegg, Samuel ; Li, Kai ; Hu, Xiaolin
RTFS-Net: 高効率な音声-視覚的な音声分離のための再帰的な時間-周波数モデリング
要約

音声視覚スピーチ分離手法は、異なるモダリティを統合して高品質な分離されたスピーチを生成することを目指しており、これにより音声認識などの下流タスクの性能が向上します。現存する最先端(SOTA)モデルの多くは時間領域で動作します。しかし、音響特徴のモデリングに対する彼らの過度に単純なアプローチは、しばしば SOTA 性能を達成するためにより大きく、計算量の多いモデルを必要とします。本論文では、新しい時間周波数領域の音声視覚スピーチ分離手法である再帰的時間周波数分離ネットワーク(Recurrent Time-Frequency Separation Network: RTFS-Net)を提案します。この手法では、短時間フーリエ変換によって得られる複素時間周波数ビンに対してアルゴリズムを適用します。私たちは各次元ごとに多層RNNを使用して、音声の時間次元と周波数次元を独立してモデリングおよび捕捉します。さらに、音声と視覚情報の効率的な統合のために独自の注意機構に基づく融合技術を導入し、音響特徴の固有のスペクトル性を利用した新しいマスク分離手法により明瞭な分離を実現しています。RTFS-Net は推論速度と分離品質において既存の SOTA メソッドを上回りながら、パラメータ数を90%削減し、MACs を83%削減しています。これは初めて全ての現代的な時間領域モデルを超える時間周波数領域の音声視覚スピーチ分離手法です。

RTFS-Net: 高効率な音声-視覚的な音声分離のための再帰的な時間-周波数モデリング | 最新論文 | HyperAI超神経