17日前
符号言語翻訳のためのトークンレベル対比枠組み
Biao Fu, Peigen Ye, Liang Zhang, Pei Yu, Cong Hu, Yidong Chen, Xiaodong Shi

要約
手話翻訳(Sign Language Translation, SLT)は、聴覚障害者と聴覚能力を持つ人々の間のコミュニケーションギャップを埋める有望な技術である。近年、研究者たちは、大規模なコーパスを用いた学習を必要とするニューラル機械翻訳(Neural Machine Translation, NMT)手法を採用してSLTを実現している。しかし、公開されているSLTコーパスは極めて限られており、これによりトークン表現が崩壊し、生成されたトークンの精度が低下するという問題が生じている。この課題を緩和するために、本研究では、トークンレベルの対照学習(contrastive learning)をSLTのデコードプロセスに統合することで、効果的なトークン表現を学習する新しいフレームワーク「ConSLT(Contrastive learning for Sign Language Translation)」を提案する。具体的には、ConSLTは、デコード過程において各トークンと異なるドロップアウトマスクによって生成された対応するトークンをポジティブペアとして扱い、さらに現在の文に含まれない語彙内の$K$個のトークンをランダムにサンプリングしてネガティブ例を構築する。本研究では、エンドツーエンドおよびカスケード設定の両方において、PHOENIX14TおよびCSL-Dailyの2つのベンチマーク上で包括的な実験を実施した。実験結果から、ConSLTが強力なベースラインよりも優れた翻訳品質を達成できることを示した。