2ヶ月前
個々の話者の話し方を学習して正確な口唇から音声合成を行う
Prajwal, K R ; Mukhopadhyay, Rudrabha ; Namboodiri, Vinay ; Jawahar, C V

要約
人間は、音声が存在しないか外部ノイズによって乱される場合、会話の一部を口唇の動きから無意識に推測する傾向がある。本研究では、口唇の動きのみから自然な音声を生成するタスク、すなわち口唇から音声合成(lip to speech synthesis)について探求している。正確なリップリーディングにはコンテクスト情報や話者特有の手がかりが重要であることを認識し、既存の研究とは異なるアプローチを採用した。我々は、制約なしの大語彙設定において個々の話者の口唇シーケンスと音声との対応関係を学習することに焦点を当てている。この目的のために、自然な状況下で単一話者の口唇から音声合成タスクを訓練および評価するために使用できる大規模ベンチマークデータセットを収集し公開した。これは同種のものとしては初めての試みである。我々は、このような制約なしの状況下で初めて正確かつ自然な口唇から音声合成を達成するための新しい手法と重要な設計選択肢を提案する。定量的指標、定性的指標、および人間による評価を通じた広範な評価により、本方法がこの分野における従来の研究よりも4倍も理解しやすいことが示された。論文、手法、および定性的結果の概要については以下のデモ動画をご覧ください。https://www.youtube.com/watch?v=HziA-jmlk_4&feature=youtu.be