1ヶ月前

野生環境下でのリップリーディング文

Joon Son Chung; Andrew Senior; Oriol Vinyals; Andrew Zisserman
野生環境下でのリップリーディング文
要約

本研究の目的は、音声が存在する与否に関わらず、話している顔からフレーズや文章を認識することである。従来の研究では限られた数の単語やフレーズの認識に焦点を当てていたのに対し、我々は唇読みをオープンワールド問題として取り組む - 制約のない自然言語の文章と、実際の映像での認識である。我々の主な貢献は以下の通りである:(1) 唇の動きのビデオを文字に転写する学習を行う「ウォッチ、リッセン、アテンド、アンド スペル」(Watch, Listen, Attend and Spell: WLAS)ネットワーク;(2) 学習を加速し、過学習を抑制するカリキュラム学習戦略;(3) 英国のテレビ番組から10万件以上の自然な文章を集めた視覚的な音声認識用データセット「Lip Reading Sentences」(LRS)。LRSデータセットで訓練されたWLASモデルは、標準的な唇読みベンチマークデータセットにおけるすべての従来研究を超える性能を示しており、しばしば大幅に上回っている。この唇読み性能はBBCテレビジョンからの映像でプロの唇読み師を上回り、また我々は視覚的情報が音声が利用可能であっても音声認識性能を向上させる手助けになると示した。