
符号言語認識(SLR)の目的は、難聴または聴覚障害を持つ人々がコミュニケーションの障壁を克服できるようにすることにある。現存する大多数のアプローチは、通常、骨格ベース(Skeleton-based)とRGBベース(RGB-based)の2つのアプローチに大別されるが、両者ともそれぞれ限界を有している。骨格ベースの手法は顔の表情を考慮しないのに対し、RGBベースの手法は細かい手の構造を無視しがちである。これらの課題を克服するため、本研究では、RGBの部位情報を基盤とする新しいフレームワーク「空間時系列部位認識ネットワーク(StepNet)」を提案する。名の通り、StepNetは2つのモジュールから構成されている:部位レベル空間モデリング(Part-level Spatial Modeling)と部位レベル時系列モデリング(Part-level Temporal Modeling)。特に、部位レベル空間モデリングは、キーポイントレベルのアノテーションを一切用いずに、特徴空間上で手や顔といった外見的特徴を自動的に捉えることができる。一方、部位レベル時系列モデリングは、長期間および短期間の文脈情報を暗黙的に抽出し、時間経過に伴う関連する特徴を捉える能力を持つ。広範な実験により、空間時系列モジュールの導入により、StepNetは3つの一般的に用いられるSLRベンチマークにおいて、競争力のあるトップ1インスタンス精度を達成した。具体的には、WLASLで56.89%、NMFs-CSLで77.2%、BOBSLで77.1%の精度を記録した。さらに、本手法は光流(optical flow)入力と互換性があり、融合することでさらに優れた性能を発揮することができる。難聴を持つ人々にとって、本研究が一歩目の基盤となることを期待している。