9日前

C2SLR:一貫性向上型連続日本手話認識

{Brian Mak, Ronglai Zuo}
C2SLR:一貫性向上型連続日本手話認識
要約

大多数深層学習に基づく連続手話認識(CSLR)モデルの基盤は、視覚モジュール、順序処理モジュール、およびアライメントモジュールから構成される。しかし、このようなCSLRの基盤構造は、単一の接続主義的時系列分類(CTC)損失関数のみでは十分な学習が困難である。本研究では、一貫性の観点からCSLR基盤の性能を向上させるため、2つの補助的制約を提案する。第一の制約は、学習が不十分になりがちな視覚モジュールの強化を目的としている。具体的には、手話が主に signer の顔および手の動きによって情報伝達される点に着目し、視覚モジュール内にキーポイント誘導型空間的注目モジュールを導入することで、情報量の多い領域に注目させる、すなわち空間的注目の一貫性を強制する。しかし、視覚モジュールのみの強化では、基盤全体の潜在能力を十分に引き出すことはできない。そこで、視覚モジュールと順序処理モジュールの出力特徴量がともに同一の文を表しているという点に着目し、両モジュール間における文埋め込みの一貫性制約を追加することで、両者の表現力の向上を図る。3つの代表的な基盤構造を用いた実験により、本提案の2つの制約が有効であることが検証された。特に、Transformerベースの基盤を用いた場合、PHOENIX-2014、PHOENIX-2014-T、CSLの3つのベンチマークにおいて、最先端または競争力のある性能を達成した。