1ヶ月前

深層音声視覚音声認識

Triantafyllos Afouras; Joon Son Chung; Andrew Senior; Oriol Vinyals; Andrew Zisserman
深層音声視覚音声認識
要約

本研究の目的は、話している顔から音声の有無に関わらずフレーズや文章を認識することである。従来の研究では限られた数の単語やフレーズの認識に焦点を当てていたが、我々は唇読みをオープンワールド問題として取り扱う - 制約のない自然言語の文と、実際の環境でのビデオである。我々の主な貢献は以下の通りである:(1) CTC損失を使用するモデルと、シーケンス・ツー・シーケンス損失を使用するモデルという2つの唇読みモデルを比較した。両方のモデルはトランスフォーマー自己注意アーキテクチャに基づいて構築されている;(2) 音声信号がノイジーな場合特に、唇読みが音声認識との相補性を持つ程度を探った;(3) 新たなオーディオビジュアル音声認識用データセットLRS2-BBC(英国テレビからの数千もの自然な文で構成)を導入し、公開した。我々が訓練したモデルは、既存の唇読みベンチマークデータセットにおける全ての先行研究を大幅に上回る性能を示した。