9日前
シグナル言語認識および翻訳のためのTwo-Stream Network
Yutong Chen, Ronglai Zuo, Fangyun Wei, Yu Wu, Shujie Liu, Brian Mak

要約
日本語での回答:手話は、手の動きや非手部的要素を用いて情報を伝える視覚言語である。手話認識(SLR)および手話翻訳(SLT)において、従来の大多数のアプローチは、RGB動画を直接隠れ表現にエンコードしている。しかし、RGB動画は視覚的な冗長性が大きく、重要な手話理解に必要な情報を見逃しやすいという問題がある。この課題を軽減し、手の形や身体の動きといったドメイン知識をより効果的に組み込むため、本研究では、既存のキーポイント推定器によって生成されたキーポイント時系列と、生の動画の両方をモデル化できる二重視覚エンコーダー(Dual Visual Encoder)を提案する。この二つの入力ストリームが相互に情報を交換できるようにするため、双方向ラテラル接続、補助教師付きの手話ピラミッドネットワーク、フレームレベルの自己蒸留(self-distillation)といった多様な技術を検討した。提案モデルは「TwoStream-SLR」と命名され、手話認識タスクにおいて優れた性能を発揮する。さらに、追加の翻訳ネットワークを接続するだけで、TwoStream-SLRは手話翻訳モデル「TwoStream-SLT」に拡張可能である。実験結果によれば、Phoenix-2014、Phoenix-2014T、CSL-Dailyなど複数のデータセットにおいて、TwoStream-SLRおよびTwoStream-SLTはそれぞれSLRおよびSLTタスクで最先端の性能を達成した。コードおよびモデルは以下のURLから公開されている:https://github.com/FangyunWei/SLRT。