
要約
連続手話翻訳(Continuous Sign Language Translation; CSLT)は、複雑な手話言語構造下において視覚ベースの動画を自然言語に翻訳することを目的とした弱教師あり問題であり、文の順序付き単語ラベルと動画内の各手話動作の正確な境界が対応しないという特徴を持つ。本稿では、時系列畳み込みモジュール(TCOV)、双方向ゲート付き再帰ユニットモジュール(BGRU)、および統合層モジュール(FL)から構成されるハイブリッド深層アーキテクチャを提案する。TCOVは隣接するクリップ特徴における短時間の時系列遷移(局所パターン)を捉えるのに対し、BGRUは時間軸にわたる長期間の文脈遷移(グローバルパターン)を保持する。FLはTCOVとBGRUの特徴埋め込みを連結することで、両者の補完的関係(相互パターン)を学習する。このように、各モジュールの利点を活かすために、統合的時系列統合(Joint Connectionist Temporal Fusion; CTF)機構を提案する。さらに、一回の学習で実現可能な新しいJoint CTC損失最適化と、深層分類スコアに基づくデコーディング統合戦略を設計し、性能向上を図っている。本手法は、ベンチマークデータセットであるRWTH-PHOENIX-Weatherデータセット上での実験により検証され、従来の複数回のEM反復を要する手法と比較して同等以上の性能を達成することが示された。これにより、提案手法の有効性が実証された。