9日前

単語レベルの手話認識を 위한シグナルポーズベースTransformer

{Marek Hrúz, Matyáš Boháček}
単語レベルの手話認識を 위한シグナルポーズベースTransformer
要約

本稿では、Transformerモデルを基盤とした単語レベルの手話認識システムを提案する。本研究では、携帯端末における活用可能性に着目し、計算コストが低いソリューションの実現を目指している。認識は、人体のポーズを2次元ランドマーク位置として推定することに基づいている。本研究では、符号化空間を考慮した堅牢なポーズ正規化手法を導入し、身体ポーズに依存しない独立した局所座標系で手のポーズを処理する。実験により、この正規化手法が提案システムの精度に著しい影響を与えることを示した。さらに、身体ポーズに関する複数の拡張手法を導入し、特に新規の順次関節回転拡張(sequential joint rotation augmentation)を含むことで、認識精度のさらなる向上を実現した。これらの手法を統合した結果、WLASLおよびLSA64データセットにおいて、最先端のトップ1精度を達成した。WLASLの100語セットにおいては、63.18%の符号記録を正しく認識でき、従来の最先端手法と比較して相対的に5%の改善を達成した。300語セットでは43.78%の認識率を達成し、相対的に3.8%の向上を示した。また、LSA64データセットにおいては、テスト認識精度100%を報告した。