2ヶ月前
多義融合モデルを用いた一般化されたゼロショット骨格ベースの動作認識
Li, Ming-Zhe ; Jia, Zhen ; Zhang, Zhang ; Ma, Zhanyu ; Wang, Liang

要約
汎用ゼロショット骨格ベースの行動認識(GZSSAR)は、コンピュータビジョン分野における新しい課題であり、モデルが訓練サンプルなしで行動を認識することを必要とします。従来の研究では、動詞句の行動ラベルのみを使用して、骨格ベースの行動から共有セマンティック空間へのマッピングを学習するためのセマンティックプロトタイプとして利用していました。しかし、行動ラベルの限られたセマンティック情報は、未見の行動を認識する際の骨格特徴量の汎化能力を制限しています。このジレンマを解決するために、我々は多様なセマンティック情報を融合する(MSF)モデルを提案し、GZSSARの性能向上を目指します。具体的には、クラスレベルでのテキスト記述(すなわち、行動記述と運動記述)を集めて補助的なセマンティック情報を提供し、一般化可能な骨格特徴量の学習効果を高めます。特に、事前学習された言語エンコーダーが各行動クラスに対して豊富なセマンティック特徴量を得るために、行動記述、運動記述および元のクラスラベルを入力として取り扱います。一方で、骨格エンコーダーが骨格特徴量を抽出するために実装されます。その後、変分オートエンコーダ(VAE)に基づく生成モジュールが導入され、骨格特徴量とセマンティック特徴量との間でのクロスモーダルアライメントを学習します。最後に、分類モジュールが構築され、入力サンプルの行動カテゴリを認識します。ここで、GZSSARにおいてサンプルが既知または未知の行動クラスから来ているかどうかを予測するための既知情報・未知情報分類ゲートが採用されています。本研究における提案されたMSFモデルは、既存モデルとの比較において優れた性能を示しており、GZSSARに対する有効性が確認されています。