1ヶ月前
単一モーダル動的手ジェスチャ認識の性能向上に向けたマルチモーダル学習の活用
Mahdi Abavisani; Hamid Reza Vaezi Joze; Vishal M. Patel

要約
動的な手のジェスチャ認識タスクにおいて、複数のモダリティから得られる知識を単一モダリティの3次元畳み込みニューラルネットワーク(3D-CNN)の学習に効率的に活用する手法を提案します。多くの最先端手法で一般的な多様な情報を明示的に組み合わせる方法ではなく、我々は各単一モダリティのネットワークが個別に複数のモダリティの知識を埋め込む異なるフレームワークを提案します。これにより、各単一モダリティのネットワークが性能向上を達成することが可能となります。特に、利用可能な各モダリティに対して個別のネットワークを割り当て、それらが共通の意味論とより良い表現を持つネットワークを開発するために協力し合うように強制します。また、「時空間意味論アライメント」損失(SSA)を導入して、異なるネットワークからの特徴量の内容をアライメントさせます。さらに、この損失を「フォーカル正則化パラメータ」によって正則化することで、負の知識転送を避けるようにしています。実験結果は、我々のフレームワークが単一モダリティのネットワークのテスト時の認識精度を向上させることを示しており、様々な動的な手のジェスチャ認識データセットにおいて最先端の性能を提供しています。