
聴覚障害者や発声障害者によって広く用いられる手話は、コミュニケーションを図る上で重要な手段であるが、習得には多大な努力を要する。手話認識(Sign Language Recognition, SLR)は、映像から手話を認識することで、手話使用者と非使用者との間のコミュニケーションギャップを埋めることを目指す。このタスクは、手の動き、体の姿勢、さらには表情といった高速かつ複雑な運動を伴うため、極めて重要かつ困難な課題である。近年、被験者と背景の変動に依存しないという利点から、スケルトンベースの行動認識が注目を集めている。しかし、手のキーポイントに関するアノテーションが不足しているため、スケルトンベースの手話認識はまだ十分に検討されていない。一部の研究では、手部検出器とポーズ推定器を組み合わせて手のキーポイントを抽出し、ニューラルネットワークを用いて手話認識を試みたが、いずれもRGBベースの手法を上回ることはできていない。こうした状況を踏まえ、本研究では、マルチモーダル情報を活用して認識精度を向上させる新しい「スケルトン認識型マルチモーダル手話認識フレームワーク」(Skeleton Aware Multi-modal SLR, SAM-SLR)を提案する。具体的には、手話の内在的動的特性をモデル化するための「手話グラフ畳み込みネットワーク」(SL-GCN)と、スケルトン特徴を効果的に活用する「分離型空間時系列畳み込みネットワーク」(Separable Spatial-Temporal Convolution Network, SSTCN)を設計した。さらに、RGBと深度(depth)モダリティをフレームワークに統合し、スケルトンベースのSL-GCNおよびSSTCNと補完的なグローバル情報を提供する。その結果、SAM-SLRは2021年「Looking at People Large Scale Signer-Independent Isolated SLR Challenge」において、RGBモード(98.42%)およびRGB-Dモード(98.53%)の両方で最高の性能を達成した。本研究のコードは、https://github.com/jackyjsy/CVPR21Chal-SLR にて公開されている。