9日前
SignBERT:手モデル認識型表現の事前学習による手話認識
Hezhen Hu, Weichao Zhao, Wengang Zhou, Yuechen Wang, Houqiang Li

要約
手のジェスチャーは、手話において重要な役割を果たす。現在の深層学習に基づく手話認識(SLR)手法は、手話データの入手源が限られているため、解釈可能性の不足や過学習の問題に直面する場合がある。本論文では、手話認識に向けた初の自己教師付き事前学習可能なSignBERTを提案する。SignBERTは、既存のポーズ抽出器を用いて得られる手のポーズを視覚的トークンとして扱う。これらの視覚的トークンは、ジェスチャー状態、時系列情報および手の鏡像性(手の左右性)情報を組み合わせて埋め込まれる。利用可能な手話データのすべての潜在的価値を活かすために、SignBERTはまず視覚的トークンのマスキングと再構成を用いた自己教師付き事前学習を実施する。さらに、複数のマスクモデリング戦略を併用し、モデルに依存するアプローチにより手の事前知識(hand prior)を導入することで、手の動き系列における階層的文脈をより正確にモデル化することを試みる。その後、予測ヘッドを追加し、SignBERTを微調整することで、下流の手話認識タスクを実行する。本手法の有効性を検証するため、NMFs-CSL、SLR500、MSASL、WLASLの4つの公的ベンチマークデータセット上で広範な実験を実施した。実験結果から、自己教師付き学習および導入された手の事前知識の両方が有効であることが示された。さらに、すべてのベンチマークにおいて最先端の性能を達成し、顕著な性能向上を実現した。