
要約
動体の軌道は、動画における行動を識別する上で顕著な手がかりとなる。特に手話では、こうした身体の軌道は連続するフレーム間で手や顔の動きによって主に表現される。しかし、現在の連続手話認識(CSLR)手法は通常、各フレームを独立して処理するため、フレーム間の軌道情報を十分に捉えられず、効果的な手話の識別が困難となっている。この課題を解決するため、本研究ではフレーム間の身体軌道を明示的に捉え、活用するための相関ネットワーク(CorrNet)を提案する。具体的には、現在のフレームと隣接フレームとの間に動的に相関マップを計算する相関モジュールを提案し、空間的なパッチごとの軌道を特定する。次に、その相関マップ内にある身体軌道を動的に強調する識別モジュールを導入する。これにより、生成された特徴量は局所的な時間的運動を全体的に把握する能力を獲得し、手話の識別が可能となる。身体軌道に特化した設計により、CorrNetはPHOENIX14、PHOENIX14-T、CSL-Daily、CSLの4つの大規模データセットにおいて、新たなSOTA(最良の結果)を達成した。これまでの空間時間的推論手法との包括的な比較から、CorrNetの有効性が実証された。また、可視化結果により、CorrNetが隣接フレーム間の人体軌道を明確に強調する効果が確認された。