実際の視覚ストリームなしでの視覚的発話強調

本研究では、制約のない現実世界環境における音声強調(speech enhancement)というタスクを再考する。現在の最先端手法は音声ストリームのみを用いており、多様な現実世界のノイズ条件下では性能に限界がある。近年、唇の動きを追加の手がかりとして利用する手法が提案され、音声のみの方法に比べて生成音声の品質が向上している。しかし、視覚ストリームが信頼できない、あるいは完全に存在しないアプリケーションでは、こうした手法は適用できない。本研究では、音声駆動型唇動き合成(speech-driven lip synthesis)の最近の進展を活用し、音声強調のための新たな枠組みを提案する。この枠組みでは、ある教師ネットワークとしての唇動き生成モデルを用い、ノイズを遮蔽する正確な唇動きを生成する堅牢な学生ネットワークを学習させる。この学生ネットワークは、実際の映像ストリームが存在しない状況下でも、「視覚的ノイズフィルタ」として機能する。本研究で提案する疑似唇(pseudo-lip)アプローチによって強調された音声の話者の理解度は、実際の唇の動きを使用した場合と比較して、差が3%未満にとどまる。これは、実際の映像ストリームがなくても、唇の動きの利点を活用可能であることを示している。本モデルの有効性は、定量的指標と人的評価を用いた厳密な評価を通じて検証された。さらに、アブレーションスタディや、ウェブサイトに掲載されたデモ動画による定性的な比較・結果も提供されており、本手法の有効性が明確に示されている。デモ動画は以下のURLから閲覧可能である:\url{http://cvit.iiit.ac.in/research/projects/cvit-projects/visual-speech-enhancement-without-a-real-visual-stream}。また、今後の研究を促進するため、コードとモデルも公開している:\url{https://github.com/Sindhu-Hegde/pseudo-visual-speech-denoising}。