
要約
本論文の目的は、音のない動画から話者を認識する強力なリップリーディングモデルを学習することである。これまでの多くの研究では、単純に視覚的な特徴量をプーリングした上で既存の自動音声認識技術を適用することで、オープンセットの視覚的音声認識問題に対処してきた。一方で、本論文ではリップリーディングに特有の課題に焦点を当て、それに対する独自の解決策を提案する。具体的には以下の貢献を行う:注意メカニズムに基づくプーリング手法を提案し、視覚的な音声表現を集約する。リップリーディングにおいて初めてサブワード単位を使用し、このタスクの曖昧性をより適切にモデル化できることが示される。リップリーディングネットワーク上に訓練されたビジュアルスピーチ検出(VSD)モデルを提案する。以上の手法により、公開データセットでの訓練においてLRS2およびLRS3ベンチマークで最先端の結果を得ることができた。さらに、大規模な産業データセットで訓練されたモデルよりも一桁少ないデータ量を使用して、それらを超える性能を達成している。最良のモデルはLRS2データセットで22.6%の単語誤り率を達成しており、これはリップリーディングモデルとしては前例のない性能であり、リップリーディングと自動音声認識間の性能差を大幅に縮小している。また、AVA-ActiveSpeakerベンチマークにおいても、当社のVSDモデルはすべての視覚のみベースラインを超え、いくつかの最近のオーディオビジュアル手法すら上回っている。