9日前

SignBERT+:手モデルを意識した自己教師付き事前学習による手話理解

Hezhen Hu, Weichao Zhao, Wengang Zhou, Houqiang Li
SignBERT+:手モデルを意識した自己教師付き事前学習による手話理解
要約

手のジェスチャーは、手話表現において重要な役割を果たす。現在の手話理解(SLU)に向けたディープラーニングベースの手法は、手話データリソースの不足により過学習を起こしやすく、解釈可能性にも制限がある。本論文では、モデルに依存する手の姿勢に関する事前知識(hand prior)を組み込んだ、初めての自己教師付き事前学習可能なSignBERT+フレームワークを提案する。本フレームワークでは、手の姿勢をオフ・ザ・シェルフの検出器から得た視覚トークンとして扱い、各視覚トークンにはジェスチャー状態および空間時間的位置符号化が付与される。現在の手話データリソースを最大限に活用するため、まず自己教師付き学習によりデータの統計特性をモデル化する。これにより、一般的な誤検出事例を模倣するため、複数レベルのマスクモデリング戦略(関節単位、フレーム単位、クリップ単位)を設計した。これらのマスクモデリング戦略と併せて、モデルに依存する手の姿勢事前知識を導入することで、時系列における階層的文脈をより正確に捉えることができる。事前学習後、下流タスクに適したシンプルでありながら効果的な予測ヘッドを丁寧に設計した。提案手法の有効性を検証するため、分離型および連続型手話認識(SLR)、および手話翻訳(SLT)という3つの主要なSLUタスクにおいて広範な実験を実施した。実験結果から、本手法が新たな最先端性能を達成し、顕著な性能向上を示したことが明らかになった。

SignBERT+:手モデルを意識した自己教師付き事前学習による手話理解 | 最新論文 | HyperAI超神経