17日前

モノラル音声強調における複素畳み込みブロック注意モジュールと同時時周波数損失の活用

Shengkui Zhao, Trung Hieu Nguyen, Bin Ma
モノラル音声強調における複素畳み込みブロック注意モジュールと同時時周波数損失の活用
要約

モノラル音声強調において、深層複素U-Net構造および畳み込み再帰ネットワーク(CRN)構造は、最先端の性能を達成している。両者とも、スキップ接続を備えたエンコーダ・デコーダ構造であり、複素数値畳み込み層の表現力に大きく依存している。本論文では、より情報豊かな特徴量を構築することで、複素数値畳み込み層の表現力を向上させるため、複素畳み込みブロック注意モジュール(CCBAM)を提案する。CCBAMは軽量かつ汎用性の高いモジュールであり、任意の複素数値畳み込み層に容易に統合可能である。本研究では、CCBAMを深層複素U-NetおよびCRNに統合し、音声強調性能の向上を図った。さらに、時間周波数(TF)領域および時間領域の両方で複素モデルを共同最適化するため、混合損失関数を提案する。CCBAMと混合損失関数を統合することで、新たなエンドツーエンド(E2E)複素音声強調フレームワークを構築した。アブレーション実験および客観評価により、提案手法の優れた性能が確認された(https://github.com/modelscope/ClearerVoice-Studio)。