9日前

RGB動画を用いたポーズフローと自己注意機構を用いた孤立符号認識

{Joni Dambre, Mieke Van Herreweghe, Mathieu De Coster}
RGB動画を用いたポーズフローと自己注意機構を用いた孤立符号認識
要約

自動手話認識は、自然言語処理(NLP)とコンピュータビジョンの交差点に位置する技術である。マルチヘッドアテンションに基づく、極めて成功を収めたトランスフォーマー構造は、もともとNLP分野から発展したものである。動画理解、たとえば動作認識など、動画を処理するタスクに適応された「動画トランスフォーマーネットワーク(VTN)」は、この概念の応用例の一つである。しかし、自動手話認識の学習には一般的に限られた量のラベル付きデータしか入手できないため、VTNはこの分野ではその潜在能力を十分に発揮できない。本研究では、手話動画から自動的に有用な情報を事前抽出することで、こうしたデータ量の制約の影響を低減する。提案手法では、複数のモダリティを統合した設定で、VTNに異なる種類の情報を供給する。具体的には、OpenPoseを用いて抽出したフレームごとの人体ポーズキーポイント(骨格点)を用いて身体の動きを捉え、手の領域を切り出した画像(手領域クロップ)を用いて手の形状やその時間的変化を表現する。本研究では、最近リリースされた孤立手話認識用のAUTSLデータセットを用いて手法を評価した結果、RGBデータのみを用いてテストセットで92.92%の精度を達成した。対照的に、手領域クロップとポーズフローを含まないVTNアーキテクチャでは82%の精度にとどまった。モデルの定性的な分析から、手話認識の文脈において、多モダリティかつマルチヘッドアテンションのさらなる可能性が示唆された。