
要約
現在の唇読み(lip reading)における最先端のアプローチは、自然言語翻訳や音声認識に用いられるシーケンス・トゥ・シーケンス(sequence-to-sequence)アーキテクチャに基づいている。そのため、これらの手法は唇の動き(lip dynamics)の特性を十分に活用できず、主に以下の2つの課題が生じている。第一に、唇画像からビゼム(visemes)へのマッピングにおいて極めて重要な短距離時系列依存性(short-range temporal dependencies)に対して特別な注目が行われていない。第二に、従来のシーケンスモデルではグローバル・アベレージ・プーリング(GAP)の使用により、局所的な空間情報が無視されてしまう。これらの課題を効果的に解決するため、本研究では短距離時系列依存性を十分に表現できる「Temporal Focalブロック」を提案するとともに、局所的な空間情報を保持しつつ特徴次元を低減する「空間時系列融合モジュール(Spatio-Temporal Fusion Module: STFM)」を導入した。実験結果から、本手法は極めて少ない学習データと軽量な畳み込み特徴抽出器(Convolutional Feature Extractor)を用いながら、最先端手法と同等の性能を達成することが示された。また、畳み込み構造と局所自己注意機構(local self-attention mechanism)の導入により、学習時間は12日間短縮された。