
要約
聴覚障がい者と一般社会とのコミュニケーションを円滑にするために、自動手話ジェスチャー認識(GR)は重要な役割を果たしている。しかし、手話(SL)の多様性およびラベル付きデータの限られた可用性により、正確かつ効率的な手話ジェスチャーの認識は依然として困難な課題である。本研究では、視覚情報を利用した多言語間転移学習を活用することで、自動手話GRの精度を向上させる新しいアプローチを提案する。本研究の基盤となる大規模マルチモーダル手話コーパスとして、アンカラ大学トルコ手話データセット(AUTSL)およびThesaurusロシア手話(TheRusLan)を用いた。実験により、18種類のジェスチャー(ロシア語ターゲット手話ジェスチャーを含む)について93.33%の認識精度を達成した。これは従来の最先端技術を2.19%上回る結果であり、提案手法の有効性を示している。本研究は、機械による手話翻訳の精度と堅牢性の向上、人間とコンピュータ間のインタラクションの自然さの改善、聴覚障がい者の社会適応を促進する可能性に着目している。本論文は、今後の研究において、提案手法を他の手話言語に応用する方向性を示すとともに、個人差および文化的差異がGRに与える影響を検討する重要な手がかりを提供している。