17日前
Few-shot行動認識のための時空間関係モデリング
Anirudh Thatipelli, Sanath Narayan, Salman Khan, Rao Muhammad Anwer, Fahad Shahbaz Khan, Bernard Ghanem

要約
本稿では、クラス固有の特徴の識別能を向上させつつ、高次元の時系列表現を同時に学習する新しい少サンプル行動認識フレームワーク、STRMを提案する。本手法の核となるのは、空間的および時系列的文脈を統合する新規なスパティオ時系列拡張モジュールであり、局所的なパッチレベルとグローバルなフレームレベルの特徴拡張サブモジュールを別々に設計している。局所的パッチレベルの拡張は、行動の外見的特徴を捉えることを目的としており、一方、グローバルなフレームレベルの拡張は、広範な時系列的文脈を明示的に符号化することで、時間的にわたる関連オブジェクト特徴を捉える。これらのスパティオ時系列的に拡張された表現を用いて、クエリとサポート行動部分列間の関係性マッチングを学習する。さらに、提案フレームワーク内の異なる段階における特徴学習を強化するため、パッチレベルの拡張特徴上にクエリクラス類似度分類器を導入し、クラス固有の特徴の識別能をさらに高めている。実験は、Kinetics、SSv2、HMDB51、UCF101の4つの少サンプル行動認識ベンチマークで実施された。広範なアブレーションスタディにより、提案手法の各構成要素の有効性が明確に示された。さらに、本手法はすべての4つのベンチマークにおいて新たな最良性能(SOTA)を達成した。特に困難なSSv2ベンチマークにおいて、従来の最良手法と比較して分類精度で3.5%の絶対的向上を達成した。本研究のコードおよびモデルは、https://github.com/Anirudh257/strm にて公開されている。