2ヶ月前

Uni-Sign: 大規模な手話理解の統一へ向けた研究

Zecheng Li; Wengang Zhou; Weichao Zhao; Kepeng Wu; Hezhen Hu; Houqiang Li

要約

手話の事前学習は、様々な手話理解（SLU）タスクの性能を向上させる能力から、ますます注目を集めています。しかし、既存の方法はしばしば事前学習と微調整の間のギャップに悩まされており、これが最適でない結果につながっています。この問題に対処するため、我々は Uni-Sign を提案します。これは大規模生成型事前学習戦略と新しい微調整パラダイムを用いて、事前学習と下流 SLU タスクとの間のギャップを解消する統合的な事前学習フレームワークです。まず、CSL-News という大規模中国手話（CSL）データセットを導入します。このデータセットには1,985時間分のビデオとテキストアノテーションがペアで含まれており、効果的な大規模事前学習を可能にします。次に、Uni-Sign は微調整時に下流タスクを単一の手話翻訳（SLT）タスクとして扱うことで SLU タスクを統合し、事前学習と微調整の間でのシームレスな知識転送を確保します。さらに、先験情報ガイダンス融合（PGF）モジュールとスコア認識サンプリング戦略を取り入れることで、ポーズ情報とRGB情報を効率的に融合し、キーポイントの精度不足を解消するとともに計算効率を向上させます。複数の SLU ベンチマークにおける広範な実験により、Uni-Sign が複数の下流 SLU タスクにおいて最先端の性能を達成することが示されています。データセットとコードは github.com/ZechengLi19/Uni-Sign で利用可能です。