9日前

可変3D畳み込みとモジュレートグラフ畳み込みネットワークを用いた手話認識

{Gerasimos Potamianos, Katerina Papadimitriou}
要約

自動手話認識(SLR)は、特に深度情報や特殊なグローブ入力なしにRGB動画のみを用いる場合、および signer-independent(SI)フレームワーク下において、個人間の手話の違い(個体差)による影響が大きいことから、依然として大きな課題である。本論文では、RGB動画からのSI孤立手話認識に焦点を当て、多モーダルな外見情報と骨格情報を利用した革新的な深層学習フレームワークを提案する。具体的には、SLR分野で初めて以下の3つの要素を提案する:(i)手話の外見情報を捉えるために、空間的・時間的畳み込みを可変畳み込み(deformable convolution)に置き換えた改良型ResNet2+1Dネットワーク。これにより、広く一般的な空間モデリング能力と、動きに敏感なモデリングの柔軟性を両立する。(ii)GCN(Graph Convolutional Network)の新規変種を採用した、空間時間的グラフ畳み込みネットワーク(ST-GCN)。このネットワークでは、物理的な人体骨格構造を超えた異なる関節間の多様な相関関係をモデル化するため、重みと類似性(affinity)の調節機構を導入し、その後に自己注意(self-attention)層と時間的畳み込み層を配置する。(iii)「PIXIE」と呼ばれる3D人体ポーズおよび形状推定器を用いて、ST-GCNのグラフ構築に必要な3D関節回転パラメータを生成する。提案システムでは、外見情報に基づくストリームと骨格情報に基づくストリームを統合し、トルコ語およびギリシャ語の孤立手話データセットの2つに対して評価を行った。その結果、ギリシャ語データセットでは最先端技術を上回り、相対誤差率で53%の低減(絶対誤差率2.45%)を達成した。一方、トルコ語データセットでは、報告済みの最良システムと同等の性能を示した。