3ヶ月前
PoCoNet:周波数位置埋め込み、準教師付き会話データ、バイアス付き損失を活用したより優れた音声強調
Umut Isik, Ritwik Giri, Neerad Phansalkar, Jean-Marc Valin, Karim Helwani, Arvindh Krishnaswamy

要約
ニューラルネットワークの応用は一般的にモデルの規模が大きくなるほど恩恵を受けるが、現在の音声強調モデルにおいては、訓練データに見られた状況を超える多様な実世界の使用ケースに対して、スケールの大きなネットワークほどロバスト性が低下する傾向がある。本研究では、音声強調用の大規模ニューラルネットワークの性能向上を実現するための複数の革新を提案する。まず、周波数位置埋め込み(frequency-positional embeddings)を活用することで、初期層において周波数依存特徴をより効率的に構築可能な新しいPoCoNetアーキテクチャを導入した。次に、ノイズ混在データセットを事前に強調処理することで、会話型の訓練データ量を増加させる半教師付き手法を提案し、実際の録音データに対する性能を向上させた。さらに、音声品質の保持に偏った新しい損失関数を導入することで、最適化プロセスが人間の音声品質に関する知覚的評価とより一致するよう改善した。アブレーション実験および客観的指標、人間評価指標の結果から、提案手法の有効性が明確に示された。