要約
本研究の目的は、話者の依存的および依存しない両方のアプローチで、無音の映像から音声を再構成することである。従来の研究は主に話者依存の設定に限定されてきたが、本研究では「Visual Voiceメモリ」を提案し、異なる話者、さらには学習時に見未曾有の話者に対しても適切な音声を生成するための重要な聴覚情報を復元する。この提案されたメモリは、入力される顔の動きに対応する追加的な聴覚情報を扱い、その音声文脈を記憶する。この音声文脈は、与えられた視覚特徴によって再引き出される。具体的には、Visual Voiceメモリは値(value)メモリスロットとキー(key)メモリスロットを備えており、値メモリスロットは音声特徴を保存する役割を担い、キー・メモリスロットは対応する音声特徴と同じ位置に保存された視覚特徴を記録する。各メモリが適切に特徴を保存するようにガイドすることで、モデルは適切な音声を十分に生成可能となる。したがって、本手法は学習時には動画と音声の両方の情報を用いるが、推論時には追加の聴覚入力は必要としない。本研究の主な貢献は以下の通りである:(1)視覚特徴を補完する豊かな音声情報を持つVisual Voiceメモリを提案し、無音映像から高品質な音声を生成することを可能にした点、および(2)音声特徴と対応する視覚特徴を記憶することにより、複数話者および未学習話者に対する学習を実現した点である。本フレームワークはGRIDおよびLip2Wavデータセット上で検証され、複数話者および話者独立設定の両方において、従来の手法を上回る性能を示した。さらに、Visual Voiceメモリが音声再構成に意味のある情報を含んでいることも実証した。