HyperAIHyperAI

Command Palette

Search for a command to run...

時系列畳み込みネットワークを用いたリップリーディング

Brais Martinez Pingchuan Ma Stavros Petridis Maja Pantic

概要

近年、ディープラーニングの進展に伴い、リップリーディング(口元読み)は多くの研究注目を集めている。現在、野外環境下における孤立語の認識で最も優れた性能を示すモデルは、リーマンネットワーク(Residual Network)と双方向ゲート付き再帰ユニット(BGRU)層を組み合わせた構成である。本研究では、このモデルの限界に着目し、さらなる性能向上を実現するための改良を提案する。まず、BGRU層を時系列畳み込みネットワーク(Temporal Convolutional Network: TCN)に置き換える。次に、訓練プロセスを大幅に簡素化し、モデルを単一ステージで訓練可能にする。さらに、現行の最先端手法がシーケンス長の変動に対して十分な汎化性能を発揮しないこと、すなわち汎化性の欠如を指摘し、これを解消するための可変長データ拡張法を提案する。本研究では、英語および中国語の孤立語認識において最大規模の公開データセットであるLRWおよびLRW1000を用いて評価を行った。提案モデルは、それぞれ1.2%および3.2%の絶対的な性能向上を達成し、新たな最先端(state-of-the-art)の性能を実現した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
時系列畳み込みネットワークを用いたリップリーディング | 記事 | HyperAI超神経