9日前
ブラジル手話認識の向上に向けた骨格画像表現によるアプローチ
Carlos Eduardo G. R. Alves, Francisco de Assis Boldt, Thiago M. Paixão

要約
聴覚障害者の社会参加を実現するためには、効果的なコミュニケーションが不可欠である。しかし、手話(Sign Language, SL)に関する知識が限られていることから、継続的なコミュニケーション障壁が存在し、彼らの完全な参加を阻んでいる。このような状況において、手話話者と非手話話者の間のコミュニケーションを改善するため、手話認識(Sign Language Recognition, SLR)システムが開発されている。特に、視覚ベースの手話検索エンジン、学習ツール、翻訳システムの開発において重要な役割を果たす「孤立手話の認識」(Isolated Sign Language Recognition, ISLR)に関する課題が存在する。本研究では、時間経過にわたって身体、手、顔のランドマークを抽出し、それを2次元画像として符号化するISLRアプローチを提案する。得られた画像は畳み込みニューラルネットワーク(CNN)によって処理され、視覚的・時系列的な情報を手話ラベルにマッピングする。実験結果により、本手法はブラジル手話(LIBRAS)における広く認知された2つのデータセットにおいて、従来の最先端技術を上回る性能を達成した。さらに、シンプルなネットワークアーキテクチャとRGBデータのみを入力として用いることから、本手法は精度の向上だけでなく、処理時間の短縮と学習の容易さという点でも優れており、実用性に優れている。