
多数の深層学習ベースの連続手話認識(CSLR)モデルは、視覚モジュール、順序処理モジュール、およびアライメントモジュールから構成される類似したバックボーンを共有している。しかしながら、訓練データが限られているため、接続主義的時系列分類(CTC)損失関数では、このようなCSLRバックボーンの十分な学習が困難である。本研究では、CSLRバックボーンの性能を向上させるための3つの補助タスクを提案する。第一のタスクは、訓練データ不足に敏感な視覚モジュールの性能を、一貫性の観点から強化することである。具体的には、手話の情報は主に話者( signer)の顔の表情および手の動きに含まれるため、関節点(keypoint)を用いた空間的注目モジュールを設計し、視覚モジュールが情報量の多い領域に注目するよう強制する。これにより、空間的注目の一貫性(spatial attention consistency)が確保される。第二のタスクは、視覚モジュールと順序処理モジュールの出力特徴が同一の文を表していることに着目し、両モジュール間の文埋め込み一貫性制約(sentence embedding consistency constraint)を導入することで、両モジュールの表現力の強化を図る。上記の補助タスクを用いて訓練されたCSLRモデルを「一貫性強化型CSLR(consistency-enhanced CSLR)」と呼ぶ。このモデルは、訓練およびテスト時にすべての話者が登場する話者依存(signer-dependent)データセットにおいて優れた性能を発揮する。さらに、話者独立(signer-independent)設定においてもより高いロバスト性を実現するため、特徴の分離(feature disentanglement)に基づく話者情報除去モジュール(signer removal module)を追加で提案する。これらの補助タスクの有効性を検証するため、広範な消去実験(ablation study)を実施した。特に注目すべきは、Transformerベースのバックボーンを採用した本モデルが、PHOENIX-2014、PHOENIX-2014-T、PHOENIX-2014-SI、CSL、CSL-Dailyの5つのベンチマークにおいて、最先端(SOTA)または競争力のある性能を達成した点である。コードとモデルは、https://github.com/2000ZRL/LCSA_C2SLR_SRM にて公開されている。