9日前

効果的なリップリーディングのための相互情報最大化

Xing Zhao, Shuang Yang, Shiguang Shan, Xilin Chen
効果的なリップリーディングのための相互情報最大化
要約

近年、ディープラーニングの急速な発展とその広範な応用可能性に伴い、唇読み(lip reading)に対する研究関心が高まっている。唇読みタスクにおいて優れた性能を達成するための鍵となる要素は、唇の動き情報を効果的に捉えつつ、ポーズの変化、照明条件、話者の外見などのノイズに対して耐性を持つ表現能力に大きく依存する。この目的に向けて、本研究では局所的な特徴レベルおよびグローバルなシーケンスレベルの両方において相互情報量(mutual information)の制約を導入することで、特徴と音声内容との関係性を強化する手法を提案する。一方で、各時刻ごとに生成される特徴が音声内容と強い関連を持つように、局所的相互情報量最大化制約(Local Mutual Information Maximization, LMIM)を導入することで、微細な唇の動きや、発音が類似する語(例:「spend」と「spending」)の微細な違いをモデルがより正確に捉える能力が向上する。他方で、グローバルなシーケンスレベルにおける相互情報量最大化制約(Global Mutual Information Maximization, GMIM)を導入し、モデルが音声内容に関連する重要なフレームに注目し、発話過程に伴って生じるさまざまなノイズに過度に反応しないようにする。これらの2つの利点を統合することで、提案手法は効果的な唇読みに向け、識別力とロバスト性の両面で優れた性能を発揮することが期待される。この手法の有効性を検証するため、2つの大規模ベンチマークデータセット上で評価を行った。さらに、LMIMとGMIMのベースラインとの比較、学習された表現の可視化など、多角的な分析と比較を実施した。その結果、提案手法の有効性が実証されただけでなく、両ベンチマークにおいて新たなSOTA(State-of-the-Art)性能を達成したことが報告された。