9日前
デフォーメーションフローを活用した二ストリームネットワークによるリップリーディング
Jingyun Xiao, Shuang Yang, Yuanhang Zhang, Shiguang Shan, Xilin Chen

要約
唇読とは、人が発話する際に唇領域で生じる動きを分析することにより、発話内容を認識するタスクである。発話過程における隣接フレーム間の連続性、および同一音素を発音する際の異なる話者間における運動パターンの一貫性に着目し、発話過程における唇の動きを唇領域における顕在的な変形の系列としてモデル化する。具体的には、隣接フレーム間の変形フローを学習するための変形フローネットワーク(Deformation Flow Network: DFN)を導入し、唇領域内の運動情報を直接捉える。学習された変形フローは、二本のストリームからなるネットワークによって、元のグレースケールフレームと組み合わされ、唇読が行われる。従来の二本のストリームネットワークとは異なり、双方向の知識蒸留損失(bidirectional knowledge distillation loss)を導入することで、学習過程において両ストリームが互いに学び合うように設計している。異なるストリームが提供する補完的な特徴により、単一のストリームを用いる場合と比較して、二本のストリームネットワークは顕著な性能向上を示す。本研究では、2つの大規模な唇読ベンチマークに対して包括的な実験評価と詳細な分析を行った。得られた結果は本研究の動機と一致しており、これらの困難なデータセットにおいて、最先端(state-of-the-art)または同等の性能を達成していることが示された。