9日前

動画からの単語レベルの深層手話認識:新たな大規模データセットと手法比較

Dongxu Li, Cristian Rodriguez Opazo, Xin Yu, Hongdong Li
動画からの単語レベルの深層手話認識:新たな大規模データセットと手法比較
要約

視覚ベースの手話認識は、聴覚障害者が他者とコミュニケーションを図るのを支援することを目的としています。しかし、現在利用可能な大多数の手話データセットは、少数の単語に限定されており、語彙の規模が小さいため、これらのデータセットから学習されたモデルは実用的な応用には適していません。本論文では、100人以上の発話者によって実演された2000語以上の単語を含む、新たな大規模な単語レベルアメリカン・サインランゲージ(WLASL)動画データセットを紹介します。このデータセットは研究コミュニティに向けて公開される予定です。知られている限り、本データセットは単語レベルの手話認識研究を促進するため、これまでで最も規模の大きな公開されたASLデータセットです。この新規の大規模データセットを基に、単語レベルの手話認識に向けた複数のディープラーニング手法を大規模なシナリオで実験・評価することが可能になりました。具体的には、(i) 総合的な視覚的外観に基づくアプローチと、(ii) 2次元人体ポーズに基づくアプローチの2つの異なるモデルを実装・比較しました。これらのモデルは、今後の研究における手法のベンチマークに役立つ貴重なベースラインを提供します。さらに、人体ポーズ軌道における空間的・時間的依存関係を同時にモデル化する新たなポーズベースの時系列グラフ畳み込みネットワーク(Pose-TGCN)を提案しました。この手法により、ポーズベースのアプローチの性能がさらに向上しました。実験結果から、ポーズベースおよび外観ベースのモデルともに、2000語/語彙に対するトップ10精度で66%という比較的高い性能を達成したことが示され、本データセットの有効性と同時に、その挑戦性も裏付けられました。本データセットおよびベースラインとなるディープラーニングモデルは、\url{https://dxli94.github.io/WLASL/}にて公開されています。

動画からの単語レベルの深層手話認識:新たな大規模データセットと手法比較 | 最新論文 | HyperAI超神経