2ヶ月前

リップリーディングのための適応的セマンティック・スパティオ・テンポラルグラフ畳み込みネットワーク

{Li Liu, Matti Pietikäinen, Huiying Xu, Xinzhong Zhu, Changchong Sheng}

要約

本研究の目的は、音声を提供せずに、話す顔から発話される単語、フレーズ、文を認識することである。現在のリップリーディングにおけるディープラーニングアプローチは、動画の外見的特徴および光学流（optical flow）情報を主に探求している。しかし、これらの手法はリップの運動特性を十分に活用していない。外見的特徴や光学流に加えて、口の輪郭の変形は、それらと補完的な意味を持つ重要な情報を含んでいることが一般的に知られている。しかしながら、動的口輪郭のモデリングは、外見的特徴や光学流のモデリングに比べて、あまり注目されていない。本研究では、動画から空間的および時間的情報を自動的に学習可能な、新たな動的口輪郭モデルとして「適応型意味的空間時系列グラフ畳み込みネットワーク（Adaptive Semantic-Spatio-Temporal Graph Convolution Network: ASST-GCN）」を提案する。さらに、外見的特徴と口輪郭からの補完的情報を統合するため、二本のストリームから構成される視覚的フロントエンドネットワークを設計した。実験の結果、提案手法は複数の大規模リップリーディングベンチマークにおいて、最先端のリップリーディング手法を顕著に上回ることが示された。