9日前
連続した手話認識のための時系列跨領域コンテキストの蒸留
{ShengYong Chen, Tiantian Yuan, Kaihua Zhang, Bo Liu, Qing Guo, Wanli Xue, Leming Guo}

要約
連続手話認識(CSLR)は、手話動画内のグロス(gloss)を認識することを目的としている。最先端の手法は、通常、空間的特徴抽出に用いられる空間認識モジュールと、時系列情報を集約する時系列集約モジュールの二つのモジュールから構成され、エンド・ツー・エンドで共同学習される。[9,20,25,36]における既存の研究結果は、全体モデルの前面を担う空間認識モジュールが、空間的特徴抽出に用いられるものの、訓練が不十分になりがちな傾向にあることを示している。本研究では、まず実証的な検証を行い、浅い(浅層の)時系列集約モジュールを用いることで、空間認識モジュールのより徹底的な学習が可能であることを示した。しかしながら、浅い時系列集約モジュールでは、手話の局所的および大域的時系列的文脈情報を十分に捉えることが困難である。このジレンマに対処するため、本研究では「クロス時系列文脈集約(Cross-Temporal Context Aggregation: CTCA)」モデルを提案する。具体的には、局所的時系列文脈と大域的時系列文脈の両方を認識するための二重パス構造のネットワークを構築した。さらに、両種類の文脈情報および言語的事前知識を統合するための、クロスコンテキスト知識蒸留(knowledge distillation)学習目標を設計した。この知識蒸留により、単一パスの時系列集約モジュールが、局所・大域の時系列的文脈および意味的文脈を同時に捉える能力を獲得する。この浅い時系列認識構造は、空間認識モジュールの学習を促進する。提案手法は、挑戦的なCSLRベンチマークデータセット上で広範な実験を実施した結果、すべての最先端手法を上回る性能を達成した。