2ヶ月前
階層窓付きグラフアテンションネットワークと大規模データセット インド手話の単語認識向け
Patra, Suvajit ; Maitra, Arkadip ; Tiwari, Megha ; Kumaran, K. ; Prabhu, Swathy ; Punyeshwarananda, Swami ; Samanta, Soumitra

要約
自動手話(SL)認識は、コンピュータビジョン分野において重要な課題の一つです。堅牢なSL認識システムを構築するためには、大量のデータが必要ですが、特にインド手話(ISL)ではそのようなデータが不足しています。本論文では、大規模な単独ISLデータセットと、骨格グラフ構造に基づく新しいSL認識モデルを紹介します。このデータセットは、聴覚障害者コミュニティで日常的に使用される2002語を20人の成人聴覚障害者サインナー(男性10人、女性10人)によって記録した40033件の動画を含んでいます。我々は、ヒエラルキー型ウィンドウ付きグラフアテンションネットワーク(Hierarchical Windowed Graph Attention Network: HWGAT)というSL認識モデルを提案します。HWGATは、人間の上半身骨格グラフを利用し、異なる身体部位に注目することで特徴的な動作を捉えようとします。提案されたデータセットの有用性と我々のモデルの有効性は、広範な実験を通じて評価されました。我々は提案されたモデルを本データセットで事前学習し、さらに異なる手話データセットで微調整を行った結果、INCLUDE, LSA64, AUTSL, WLASLそれぞれで既存の最先端キーポイントベースモデルよりも1.10%, 0.46%, 0.78%, 6.84%性能が向上しました。