HyperAIHyperAI

Command Palette

Search for a command to run...

ASRはすべてです:リップリーディングにおけるクロスモーダル蒸留

Triantafyllos Afouras Joon Son Chung Andrew Zisserman

概要

本研究の目的は、人間によるラベル付けされた正解データを必要とせずに、視覚的発話認識用の強力なモデルを学習することである。これにより、大規模な音声のみのコーパスで事前学習された自動音声認識(ASR)モデルから知識蒸留(knowledge distillation)を行うことで実現する。本研究では、接続主義的時系列分類(CTC)とフレーム単位の交差エントロピー損失を組み合わせたクロスモーダル蒸留手法を採用している。本研究の貢献は以下の4点である:(i)正解の音声転写が唇読みシステムの学習に必要でないことを示した;(ii)ラベルなしの動画データを任意の量だけ活用することで性能向上が可能であることを示した;(iii)知識蒸留が学習を著しく高速化することを実証した;(iv)公開データのみを用いた学習において、挑戦的なLRS2およびLRS3データセットで最先端の性能を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ASRはすべてです:リップリーディングにおけるクロスモーダル蒸留 | 記事 | HyperAI超神経