HyperAIHyperAI

Command Palette

Search for a command to run...

リップリーディングのための適応的セマンティック・スパティオ・テンポラルグラフ畳み込みネットワーク

Li Liu Matti Pietikäinen Huiying Xu Xinzhong Zhu Changchong Sheng

概要

本研究の目的は、音声を提供せずに、話す顔から発話される単語、フレーズ、文を認識することである。現在のリップリーディングにおけるディープラーニングアプローチは、動画の外見的特徴および光学流(optical flow)情報を主に探求している。しかし、これらの手法はリップの運動特性を十分に活用していない。外見的特徴や光学流に加えて、口の輪郭の変形は、それらと補完的な意味を持つ重要な情報を含んでいることが一般的に知られている。しかしながら、動的口輪郭のモデリングは、外見的特徴や光学流のモデリングに比べて、あまり注目されていない。本研究では、動画から空間的および時間的情報を自動的に学習可能な、新たな動的口輪郭モデルとして「適応型意味的空間時系列グラフ畳み込みネットワーク(Adaptive Semantic-Spatio-Temporal Graph Convolution Network: ASST-GCN)」を提案する。さらに、外見的特徴と口輪郭からの補完的情報を統合するため、二本のストリームから構成される視覚的フロントエンドネットワークを設計した。実験の結果、提案手法は複数の大規模リップリーディングベンチマークにおいて、最先端のリップリーディング手法を顕著に上回ることが示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
リップリーディングのための適応的セマンティック・スパティオ・テンポラルグラフ畳み込みネットワーク | 記事 | HyperAI超神経