9日前

連続手話認識における視覚的アライメント制約

Yuecong Min, Aiming Hao, Xiujuan Chai, Xilin Chen
連続手話認識における視覚的アライメント制約
要約

視覚ベースの連続手話認識(Continuous Sign Language Recognition: CSLR)は、画像ストリームから区切りのない手話表現を認識することを目的としている。CSLRの学習において過学習(overfitting)は最も重要な課題の一つであり、従来の研究では反復的学習スキーム(iterative training scheme)がこの問題の一部を緩和できることが示されているが、その一方で学習時間の増加を伴うという課題も存在する。本研究では、最近のCSLR研究における反復的学習スキームを再検討し、特徴抽出器(feature extractor)の十分な学習が過学習問題の解決に極めて重要であることに着目した。そこで、特徴抽出器の性能をアライメント(alignment)の監視によって強化するため、視覚的アライメント制約(Visual Alignment Constraint: VAC)を提案する。具体的には、VACは二つの補助損失(auxiliary losses)から構成される:一つは視覚特徴にのみ注目し、もう一つは特徴抽出器とアライメントモジュール間の予測結果のアライメントを強制する。さらに、特徴抽出器とアライメントモジュール間の予測不一致を測定することで、過学習の程度を反映する二つの評価指標を提案する。二つの挑戦的なCSLRデータセットにおける実験結果から、提案するVACがCSLRネットワークのエンドツーエンド学習を可能にし、競争力のある性能を達成することが示された。

連続手話認識における視覚的アライメント制約 | 最新論文 | HyperAI超神経