
要約
リップリーディングは、話者の唇の動きを視覚的に解析することでビデオから音声内容を認識することを目指しています。この課題は、同じまたは非常に類似した唇の動きを伴う単語(同音異義語)の存在、および話者間での多様な唇の外観と運動パターンにより、難易度が高まっています。これらの課題に対処するため、我々は新たなリップリーディングモデルを提案します。このモデルは、多粒度空間時間モデリングによって、単語間の微細な違いだけでなく、異なる話者のスタイルも捉えることが可能です。具体的には、まず視覚フロントエンドを使用してフレームレベルの微細な特徴量と短期的な中粒度特徴量を抽出します。これらを組み合わせることで、類似した音素を持つ単語に対する識別力のある表現を得ることができます。次に、時間方向の注意機構を備えた双方向ConvLSTMが入力シーケンス全体の空間時間情報を集約し、各単語の大粒度パターンを捉えつつ、話者個体差や照明条件など様々な状況に対して堅牢性を持つことが期待されます。異なるレベルからの情報を統一されたフレームワークで十分に活用することで、モデルは発音が類似した単語を区別するだけでなく、外観変化にも堅牢性を持つようになります。我々は2つの困難な単語レベルリップリーディングベンチマークで方法を評価し、提案手法の有効性を示しました。これらの結果は上記の主張も証明しています。