9日前

局所領域および骨格情報に注目したマルチストリームニューラルネットワークを用いた単語レベルの手話認識

Mizuki Maruyama, Shrey Singh, Katsufumi Inoue, Partha Pratim Roy, Masakazu Iwamura, Michifumi Yoshioka
局所領域および骨格情報に注目したマルチストリームニューラルネットワークを用いた単語レベルの手話認識
要約

単語レベルの手話認識(Word-level Sign Language Recognition: WSLR)は、発話障害を持つ人々と聴覚能力を持つ人々の間のコミュニケーション障壁を克服できると期待されており、注目を集めている。WSLRの課題において、動作認識に特化した手法が最先端の精度を達成している。実際、手話が動作と見なされるため、動作認識手法がWSLRにおいて優れた性能を発揮するのは自然なことのように思える。しかし、これらのタスクを詳細に検討すると、動作認識とWSLRの本質的な違いが明らかになる。したがって、本論文では、WSLRの課題に特有に有用な情報を考慮した新たなWSLR手法を提案する。この手法は、3つのストリームからなるマルチストリームニューラルネットワーク(Multi-Stream Neural Network: MSNN)として実現される。3つのストリームは、それぞれ以下の役割を果たす:1)ベースストリーム、2)局所画像ストリーム、3)スケルトンストリーム。各ストリームは異なる種類の情報を処理するように設計されている。ベースストリームは手や体の高速かつ詳細な動きを扱い、局所画像ストリームは手の形や表情に注目し、スケルトンストリームは身体および両手の相対的位置関係を捉える。このアプローチにより、多様な種類のデータを統合し、より包括的なジェスチャー解析が可能となる。WLASLおよびMS-ASLデータセットにおける実験結果から、提案手法の有効性が示された。従来手法と比較して、Top-1精度において約10%~15%の向上が達成された。