2ヶ月前

動画とテキスト埋め込みのクロスモーダルアライメントを用いた、Joint-Latent空間における連続手話認識

{Petros Daras, DIMITRIOS KONSTANTINIDIS, Kosmas Dimitropoulos, Ilias Papastratis}

要約

連続手話認識（Continuous Sign Language Recognition: CSLR）とは、弱教師付きの動画シーケンスから手話のグロス（gloss）およびその時間的境界を認識するという困難な課題を指す。従来の手法は視覚特徴の抽出に主眼を置いており、テキスト情報の活用を軽視し、グロス内での依存関係を効果的にモデル化できていなかった。本研究では、テキスト情報を活用して視覚ベースのCSLRを向上させるためのクロスモーダル学習アプローチを提案する。具体的には、まず強力な符号化ネットワークを2つ用いて、動画およびテキストの埋め込み表現を生成し、それらを統合された潜在表現空間にマッピング・アライメントする。提案するクロスモーダルアライメントの目的は、グロス内依存関係のモデリングおよびCSLRに適したより記述力豊かな動画ベースの潜在表現の構築にある。提案手法は、動画およびテキストの潜在表現を統合的に学習する。最終的に、アライメントされた動画の潜在表現を、統合的に訓練されたデコーダーを用いて分類する。3つの代表的な手話認識データセットにおける広範な実験および最先端手法との比較により、本手法の高い潜在能力が実証された。