唇の先を超えて発話を読み取ることは可能か?深層視覚発話認識におけるRoI選択の再考

近年のディープラーニングの進展により、視覚的発話認識(Visual Speech Recognition: VSR)分野における研究者の関心が高まっている。現在の大多数の手法は、VSRを自動的唇読み(automatic lip reading)と同一視しており、唇の運動を分析することで発話を認識しようとするものである。しかし、人間の経験および心理学的研究から、対面会話において私たちは常に相手の唇に注目しているわけではない。むしろ、顔全体を繰り返しスキャンしていることが知られている。この知見に触発され、本研究では、基礎的ではあるがやや無視されがちな問題に再び注目する:VSRモデルは、唇の領域を超える「顔の外側領域」(extraoral facial regions)の情報を活用することで、性能向上を図れるだろうか?本論文では、最先端のVSRモデルを用いて、口元、顔全体、上部顔面、さらには頬といった異なる顔領域の影響を包括的に評価する。また、異なる特徴を持つ単語レベルおよび文レベルのベンチマークにおいて実験を実施した。その結果、データの複雑な変動が存在する中でも、唇以外の領域、特に上部顔面からの情報を導入することで、VSR性能が一貫して向上することが明らかになった。さらに、Cutoutに基づくシンプルかつ効果的な手法を提案し、顔ベースのVSRにおいてより判別力の高い特徴を学習できるようにする。このアプローチにより、異なる顔領域にエンコードされた情報を最大限に活用することを目指した。実験の結果、従来の最先端手法(入力として唇領域のみを用いるもの)と比較して顕著な性能向上が得られた。本研究の成果は、VSR分野において新たな洞察をもたらすものであり、今後の研究に大きなインパクトを与えるものと確信している。