
要約
本研究の目的は、人間によるラベル付けされた正解データを必要とせずに、視覚的発話認識用の強力なモデルを学習することである。これにより、大規模な音声のみのコーパスで事前学習された自動音声認識(ASR)モデルから知識蒸留(knowledge distillation)を行うことで実現する。本研究では、接続主義的時系列分類(CTC)とフレーム単位の交差エントロピー損失を組み合わせたクロスモーダル蒸留手法を採用している。本研究の貢献は以下の4点である:(i)正解の音声転写が唇読みシステムの学習に必要でないことを示した;(ii)ラベルなしの動画データを任意の量だけ活用することで性能向上が可能であることを示した;(iii)知識蒸留が学習を著しく高速化することを実証した;(iv)公開データのみを用いた学習において、挑戦的なLRS2およびLRS3データセットで最先端の性能を達成した。