
連続手話認識(Continuous Sign Language Recognition: CSLR)は、剪定されていない手話動画から手話の内容をテキスト形式の gloss に変換することを目的としています。CSLRの主要な課題の一つは、動画と gloss シーケンスの間に効果的なクロスモダリティアライメントを実現し、動画表現を強化することです。しかし、現在のクロスモダリティアライメント手法は、グローバルな時間的文脈を学習する際のテキスト文法の役割を軽視しがちであり、これが認識性能の低下を招いています。この問題を解決するため、本研究では「ノイズ除去型コントラストアライメント(Denoising-Contrastive Alignment: DCA)」という新しい枠組みを提案します。DCAは、テキスト文法を活用して動画表現を強化するという画期的なアプローチを採用し、二つの補完的な手法を用いています:第一に、識別視点から手話と gloss のインスタンス対応関係をモデル化し、第二に、生成視点から両者のグローバルな文脈をアライメントします。具体的には、DCAはコントラスト損失を用いて、手話と gloss 間の柔軟なインスタンスレベルの対応関係を実現します。この基礎の上に、DCAは動画表現をガイドとして用い、ノイズを含む gloss 表現をノイズ除去することで、動画と gloss シーケンス間のグローバル文脈のアライメントをモデル化します。さらに、DCAは勾配調制(gradient modulation)を導入し、アライメントと認識の勾配を最適化することで、より効果的な学習プロセスを実現します。gloss 単位の知識とグローバル文脈の知識を統合することで、DCAはCSLRタスクにおける動画表現を顕著に向上させます。公開ベンチマーク上での実験結果により、DCAの有効性が検証されるとともに、動画表現の強化が実現可能であることが確認されました。