17日前

Few-shot動画分類のための陰的時系列アライメント学習

Songyang Zhang, Jiale Zhou, Xuming He
Few-shot動画分類のための陰的時系列アライメント学習
要約

少数回サンプル動画分類は、実世界の応用において高コストなラベル付け作業の負担を軽減するため、少数のラベル付き例を用いて新しい動画カテゴリを学習することを目的としている。しかしながら、このような設定において、クラス不変な空間時系列表現を学習することは特に困難である。本研究では、動画シーケンスに対する新たなマッチングベースの少数回学習戦略を提案する。本研究の核心的なアイデアは、動画ペアに対して暗黙的な時系列アライメントを導入し、その間の類似度を精度高くかつ堅牢に推定することにある。さらに、空間的および特徴チャネルの文脈情報を効果的に組み込むためのコンテキスト符号化モジュールを設計することで、クラス内変動のより良いモデリングを実現している。モデルの学習には、動画マッチングを学習するためのマルチタスク損失関数を構築し、汎化性能の高い動画特徴を獲得することを可能にした。2つの挑戦的なベンチマーク(SomethingSomething-V2およびKinetics)における広範な実験結果から、本手法はSomethingSomething-V2において既存手法を大きく上回る性能を達成し、Kineticsにおいても競争力のある結果を示した。