HyperAIHyperAI

Command Palette

Search for a command to run...

Few-shotアクション認識における順列不変注意機構

Hongguang Zhang Li Zhang Xiaojuan Qi Hongdong Li Philip H. S. Torr Piotr Koniusz

概要

多くの少样本学習モデルは画像認識に焦点を当てているが、本研究では動画からの少样本行動認識という挑戦的なタスクに取り組む。我々は、短距離の行動パターンを捉えるため、時空間的な動画ブロックに対してC3Dエンコーダーを用いる。これらの符号化されたブロックは、順序不変なプーリング(permutation-invariant pooling)によって集約され、行動の長さの変動や長距離の時系列依存性に対してもロバストな性能を実現する。このような依存性は、同じクラスのクリップ内でもパターンが再現されにくいことが特徴である。その後、プーリングされた表現は、いわゆる「クエリクリップ」と「サポートクリップ」を符号化する単純な関係記述子(relation descriptors)に統合される。最後に、これらの関係記述子は、クエリクリップとサポートクリップ間の類似性学習を目的とした比較器(comparator)に供給される。特に、プーリング過程におけるブロックの寄与度を再重み付けするため、空間的・時系列的アテンションモジュールと自己教師学習(self-supervision)を活用している。自然な状況下のクリップ(同一クラス)では、判別的な時系列行動ホットスポットの位置が変動するという時系列分布シフトが生じる。そこで、クリップのブロックをランダムに並べ替え、その結果得られるアテンション領域を、並べ替えられていない元のクリップの対応するアテンション領域と一致させるように訓練することで、ブロック(および長期的なホットスポット)の並べ替えに対して不変なアテンション機構を学習する。本手法は、HMDB51、UCF101、miniMITの各データセットにおいて、既存の最先端手法を上回る性能を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています