
要約
未見行動認識(UAR)は、訓練例が存在しない新しい行動カテゴリーを認識することを目指しています。従来の手法は主にデータセット内の既知/未知の分割に焦点を当てていますが、本論文では大規模な訓練ソースを使用して、より現実的なクロスデータセットUAR(CD-UAR)シナリオに対応可能な普遍表現(UR)を達成するパイプラインを提案します。まず、UARを一般化された複数インスタンス学習(GMIL)問題として扱い、分布カーネルを使用して大規模なActivityNetデータセットから「構成要素」を見出します。共有空間において重要な視覚的および意味的成分が保存され、これにより新規データセットへの効率的な汎化が可能となるURが得られます。予測されたURの代表例は単純な意味適応によって改善され、テスト時にURを使用して直接未知の行動を認識することができます。追加の訓練なしで、広範な実験によりUCF101およびHMDB51ベンチマークに対する大幅な改善が示されています。