HyperAIHyperAI

Command Palette

Search for a command to run...

連続した手話認識のための時系列跨領域コンテキストの蒸留

ShengYong Chen Tiantian Yuan Kaihua Zhang Bo Liu Qing Guo Wanli Xue Leming Guo

概要

連続手話認識(CSLR)は、手話動画内のグロス(gloss)を認識することを目的としている。最先端の手法は、通常、空間的特徴抽出に用いられる空間認識モジュールと、時系列情報を集約する時系列集約モジュールの二つのモジュールから構成され、エンド・ツー・エンドで共同学習される。[9,20,25,36]における既存の研究結果は、全体モデルの前面を担う空間認識モジュールが、空間的特徴抽出に用いられるものの、訓練が不十分になりがちな傾向にあることを示している。本研究では、まず実証的な検証を行い、浅い(浅層の)時系列集約モジュールを用いることで、空間認識モジュールのより徹底的な学習が可能であることを示した。しかしながら、浅い時系列集約モジュールでは、手話の局所的および大域的時系列的文脈情報を十分に捉えることが困難である。このジレンマに対処するため、本研究では「クロス時系列文脈集約(Cross-Temporal Context Aggregation: CTCA)」モデルを提案する。具体的には、局所的時系列文脈と大域的時系列文脈の両方を認識するための二重パス構造のネットワークを構築した。さらに、両種類の文脈情報および言語的事前知識を統合するための、クロスコンテキスト知識蒸留(knowledge distillation)学習目標を設計した。この知識蒸留により、単一パスの時系列集約モジュールが、局所・大域の時系列的文脈および意味的文脈を同時に捉える能力を獲得する。この浅い時系列認識構造は、空間認識モジュールの学習を促進する。提案手法は、挑戦的なCSLRベンチマークデータセット上で広範な実験を実施した結果、すべての最先端手法を上回る性能を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
連続した手話認識のための時系列跨領域コンテキストの蒸留 | 記事 | HyperAI超神経