18日前
Few-shot動画認識のための深さガイド付き適応的メタファージョンネットワーク
Yuqian Fu, Li Zhang, Junke Wang, Yanwei Fu, Yu-Gang Jiang

要約
人間はわずかな例示例を与えられれば容易に動作を認識できるのに対し、現在の動画認識モデルは依然として大規模なラベル付きデータに大きく依存している。この観察から、極めて少ないラベル付きサンプルで新しい動作を学習することを目指す「少数ショット動画動作認識(few-shot video action recognition)」への関心が高まっている。本論文では、少数ショット動画認識を目的として、深度情報を利用して適応的メタ融合を実現する新たなネットワーク「AMeFu-Net(Adaptive Meta-Fusion Network)」を提案する。具体的には、以下の三つの観点から少数ショット認識問題に取り組む。第一に、シーンを表現する载体として深度情報を導入することで、極めてデータが乏しい状況を緩和し、モデルに追加の視覚的情報を提供する。第二に、時間的非同期増強機構により複数の厳密に対応しない深度クリップをサンプリングし、元のRGBクリップの表現と融合することで、特徴レベルで新たなインスタンスを合成する。第三に、二つのモダリティ(RGBと深度)を効率的に融合するため、新規の「深度誘導型適応的インスタンス正規化(Depth Guided Adaptive Instance Normalization, DGAdaIN)」融合モジュールを提案する。さらに、少数ショット認識プロセスをより正確に模倣するため、本モデルはメタ学習の枠組みで学習される。複数の動作認識ベンチマークにおける広範な実験により、本モデルの有効性が実証された。