17日前
時系列関係クロスTransformerを用いた少サンプル行動認識
Toby Perrett, Alessandro Masullo, Tilo Burghardt, Majid Mirmehdi, Dima Damen

要約
本研究では、少サンプル行動認識のための新たなアプローチを提案する。本手法は、クエリ動画とサポートセット内の動画間で時系列的に対応するフレームタプルを探索するものである。従来の少サンプル学習手法とは異なり、クラス平均や単一の最良一致を用いるのではなく、CrossTransformerアテンション機構を活用して、すべてのサポート動画の関連する部分列(サブシーケンス)を統合的に観察することで、クラスプロトタイプを構築する。動画表現は、フレーム数が異なる順序付きタプルから構成されるため、異なる速度や時系列オフセットを持つ行動の部分列間の比較が可能となる。提案する時系列関係型CrossTransformer(Temporal-Relational CrossTransformers, TRX)は、Kinetics、Something-Something V2(SSv2)、HMDB51、UCF101の少サンプルスプリットにおいて、最先端の性能を達成した。特に、時系列関係のモデリング能力に優れるため、SSv2において従来手法を大幅に上回り(12%の向上)、顕著な性能向上を示した。詳細なアブレーションスタディにより、複数のサポートセット動画とのマッチングの重要性、および高次の関係性を学習するCrossTransformerの有効性が確認された。