1ヶ月前
LipNet: エンドツーエンドの文レベルのリップリーディング
Yannis M. Assael; Brendan Shillingford; Shimon Whiteson; Nando de Freitas

要約
リップリーディングは、話者の口の動きからテキストを復号するタスクである。従来の手法では、この問題を可視化された特徴量の設計または学習と予測の2段階に分けていた。最近の深層リップリーディングアプローチでは、エンドツーエンドで学習可能なモデル(Wandら, 2016; Chung & Zisserman, 2016a)が提案されている。しかし、エンドツーエンドで学習された既存のモデルは単語分類しか行わず、文レベルのシーケンス予測には至っていない。研究によると、人間のリップリーディング性能は長い単語に対して向上することが示されており(Easton & Basala, 1982)、曖昧な通信チャネルにおいて時間的なコンテクストを捉える特徴量の重要性が指摘されている。この観察に基づき、我々はLipNetというモデルを提案する。LipNetは、変動長のビデオフレームシーケンスをテキストにマッピングし、空間時間畳み込み、再帰型ネットワーク、および接続主義的時間分類損失を使用して完全にエンドツーエンドで学習される。我々が知る限り、LipNetは初めて空間時間的な視覚特徴量とシーケンスモデルを同時に学習する文レベルのリップリーディングモデルである。GRIDコーパスにおいて、LipNetは文レベルでの重複話者分割タスクで95.2%の精度を達成しており、経験豊富な人間のリップリーダーと以前の86.4%という単語レベルでの最先端精度(Gergenら, 2016)を上回っている。