17日前

Few-shotアクション認識における順列不変注意機構

Hongguang Zhang, Li Zhang, Xiaojuan Qi, Hongdong Li, Philip H. S. Torr, Piotr Koniusz

要約

多くの少样本学習モデルは画像認識に焦点を当てているが、本研究では動画からの少样本行動認識という挑戦的なタスクに取り組む。我々は、短距離の行動パターンを捉えるため、時空間的な動画ブロックに対してC3Dエンコーダーを用いる。これらの符号化されたブロックは、順序不変なプーリング（permutation-invariant pooling）によって集約され、行動の長さの変動や長距離の時系列依存性に対してもロバストな性能を実現する。このような依存性は、同じクラスのクリップ内でもパターンが再現されにくいことが特徴である。その後、プーリングされた表現は、いわゆる「クエリクリップ」と「サポートクリップ」を符号化する単純な関係記述子（relation descriptors）に統合される。最後に、これらの関係記述子は、クエリクリップとサポートクリップ間の類似性学習を目的とした比較器（comparator）に供給される。特に、プーリング過程におけるブロックの寄与度を再重み付けするため、空間的・時系列的アテンションモジュールと自己教師学習（self-supervision）を活用している。自然な状況下のクリップ（同一クラス）では、判別的な時系列行動ホットスポットの位置が変動するという時系列分布シフトが生じる。そこで、クリップのブロックをランダムに並べ替え、その結果得られるアテンション領域を、並べ替えられていない元のクリップの対応するアテンション領域と一致させるように訓練することで、ブロック（および長期的なホットスポット）の並べ替えに対して不変なアテンション機構を学習する。本手法は、HMDB51、UCF101、miniMITの各データセットにおいて、既存の最先端手法を上回る性能を達成した。