1ヶ月前

リップリーディングのために残差ネットワークとLSTMを組み合わせる

Themos Stafylakis; Georgios Tzimiropoulos
リップリーディングのために残差ネットワークとLSTMを組み合わせる
要約

単語レベルの視覚音声認識向けのエンドツーエンドの深層学習アーキテクチャを提案します。本システムは、時空間畳み込み、残差、および双方向長期短期記憶(LSTM)ネットワークの組み合わせで構成されています。私たちは、BBCテレビ放送から抽出した1.28秒のビデオ断片で構成される500単語規模の難易度の高い「Lipreading In-The-Wild」ベンチマークデータベース上で、このシステムを訓練および評価しました。提案されたネットワークは、単語認識精度が83.0%に達し、既存の最先端技術に対して6.8ポイントの絶対的な改善をもたらしました。これは、訓練やテストにおいて単語境界に関する情報を使用せずに達成された結果です。

リップリーディングのために残差ネットワークとLSTMを組み合わせる | 最新論文 | HyperAI超神経