9日前

時系列畳み込みネットワークを用いたリップリーディング

Brais Martinez, Pingchuan Ma, Stavros Petridis, Maja Pantic
時系列畳み込みネットワークを用いたリップリーディング
要約

近年、ディープラーニングの進展に伴い、リップリーディング(口元読み)は多くの研究注目を集めている。現在、野外環境下における孤立語の認識で最も優れた性能を示すモデルは、リーマンネットワーク(Residual Network)と双方向ゲート付き再帰ユニット(BGRU)層を組み合わせた構成である。本研究では、このモデルの限界に着目し、さらなる性能向上を実現するための改良を提案する。まず、BGRU層を時系列畳み込みネットワーク(Temporal Convolutional Network: TCN)に置き換える。次に、訓練プロセスを大幅に簡素化し、モデルを単一ステージで訓練可能にする。さらに、現行の最先端手法がシーケンス長の変動に対して十分な汎化性能を発揮しないこと、すなわち汎化性の欠如を指摘し、これを解消するための可変長データ拡張法を提案する。本研究では、英語および中国語の孤立語認識において最大規模の公開データセットであるLRWおよびLRW1000を用いて評価を行った。提案モデルは、それぞれ1.2%および3.2%の絶対的な性能向上を達成し、新たな最先端(state-of-the-art)の性能を実現した。

時系列畳み込みネットワークを用いたリップリーディング | 最新論文 | HyperAI超神経