9日前

LCANet:カスケード型アテンション-CTCを用いたエンドツーエンドリップリーディング

{Nick Cassimatis, Xiaolong Wang, Kai Xu, Dawei Li}
LCANet:カスケード型アテンション-CTCを用いたエンドツーエンドリップリーディング
要約

マシンリップリーディングは、口元、顔面、舌などの顔面領域の動きを視覚的に解釈することで人間の発話を転写する、自動音声認識(ASR)の特殊なタイプである。近年、深層ニューラルネットワークを用いたリップリーディング手法が大きな可能性を示しており、いくつかのベンチマークデータセットにおいて、経験豊富な人間のリップリーダーを上回る精度を達成している。しかし、リップリーディングは依然として完全には解決されておらず、既存の手法は実世界のデータ(ワイルドデータ)に対して高い誤り率を示す傾向にある。本論文では、エンドツーエンドの深層ニューラルネットワークに基づくリップリーディングシステム「LCANet」を提案する。LCANetは、スタックされた3次元畳み込みニューラルネットワーク(CNN)、ハイウェイネットワーク、および双方向GRUネットワークを用いて入力動画フレームを符号化する。このエンコーダーは、短期的かつ長期的な空間時間情報を効果的に捉えることができる。さらに、LCANetは段階的(カスケード型)アテンションCTCデコーダを導入し、出力テキストを生成する。アテンションとCTCをカスケード接続することで、隠れ層におけるCTCの条件付き独立性仮定の欠陥を部分的に解消でき、著しい性能向上と高速な収束を実現した。実験結果から、提案手法はGRIDコーパスデータベースにおいて1.3%の文字誤り率(CER)および3.0%の単語誤り率(WER)を達成し、最先端手法と比較して12.3%の性能向上を示した。