要約
本稿では、動画から連続手話認識(CSLR)を行うための新たなTransformerベースのアプローチを提案する。本手法は、従来のTransformerが手話(SL)の局所的意味的文脈を学習する点で抱える課題を解決することを目的としている。具体的には、以下の2つの異なる構成要素に基づく。 (a) 局所的な時系列的文脈を捉えるためのウィンドウベースのRNNモジュール、および (b) ガウスバイアスと相対位置情報による局所構造モデリングを導入し、マルチヘッドアテンションによるグローバル構造モデリングを実現した強化型Transformerエンコーダ。さらにモデル性能の向上を図るため、提案手法を外見的特徴と運動的特徴の両方のシグニングストリームに適用するマルチモーダルフレームワークを設計し、ガイド付きCTC手法により両ストリームの事後確率を整合させる。また、知識蒸留損失を導入することで、視覚特徴と語彙系列(gloss sequence)の間のアライメントを実現した。2つの代表的なドイツ語CSLRデータセットにおける実験評価により、本モデルの優位性が実証された。