
要約
手話は、 signer の手の形、表情、身体の動きなどの視覚的要素を用いて情報を伝達する視覚言語である。これらの視覚的要素の組み合わせに内在する制約により、手話には視覚的に区別がつかない符号(VISigns)が多数存在し、これが視覚ニューラルネットワークの認識能力を制限する要因となっている。この問題を緩和するため、本研究では、語彙(glosses:符号ラベル)に含まれる意味情報を利用する自然言語支援型手話認識(NLA-SLR)フレームワークを提案する。まず、類似した意味を持つVISignsに対して、語彙間の正規化された意味類似度に基づいてスムージング重みを計算し、各訓練符号に対してソフトラベルを生成する「言語意識型ラベルスムージング」を提案することで、学習の安定性を向上させる。次に、意味が異なるVISignsについて、視覚特徴と語彙特徴を混合する「モダリティ間ミックスアップ(inter-modality mixup)」技術を導入し、混合ラベルの監督下で異なる符号間の分離性をさらに高める。さらに、RGB動画と人体キーポイントの両方をモデル化するとともに、異なる時間的受容領域を持つ手話動画から知識を抽出できる新しいバックボーンとして「動画キーポイントネットワーク(video-keypoint network)」を提案する。実験結果によると、本手法は広く用いられている3つのベンチマーク(MSASL、WLASL、NMFs-CSL)において、最先端の性能を達成した。コードは以下のURLから公開されている:https://github.com/FangyunWei/SLRT。