2ヶ月前

複数話者環境における顔ランドマークを用いた話者独立型音声強調

Giovanni Morrone; Luca Pasa; Vadim Tikhanoff; Sonia Bergamaschi; Luciano Fadiga; Leonardo Badino
複数話者環境における顔ランドマークを用いた話者独立型音声強調
要約

本論文では、カクテルパーティー状況下で対象話者の音声を強化する問題に焦点を当て、対象話者の視覚情報が利用可能である場合の方法を提案しています。これまでの多くの研究とは異なり、我々は一般的に規模が小さい音声-視覚データセットから視覚特徴を学習しません。代わりに、別の画像データセットで事前に訓練された顔ランドマーク検出器を使用します。これらのランドマークは、LSTMベースのモデルによって時間周波数マスクを生成するために使用され、そのマスクは混合音声スペクトログラムに対して適用されます。結果は以下の通りです:(i) ランドマーク運動特徴量はこのタスクにおいて非常に効果的な特徴量であることが示されました、(ii) 以前の研究と同様に、マスキングによる対象話者スペクトログラムの再構成は直接的なスペクトログラム再構成よりも著しく正確であることが確認されました、(iii) 最適なマスクは運動ランドマーク特徴量と入力混合音声スペクトログラムの両方に依存することが明らかになりました。当該手法について知る限り、我々が提案するモデルは初めてGRIDおよびTCD-TIMITデータセット(サイズが限定されている)で訓練および評価され、複数話者が存在する環境下での話者独立型音声強化を達成したものです。

複数話者環境における顔ランドマークを用いた話者独立型音声強調 | 最新論文 | HyperAI超神経