11日前

ASM-Loc:弱教師付き時空間行動局所化のための行動認識型セグメントモデリング

Bo He, Xitong Yang, Le Kang, Zhiyu Cheng, Xin Zhou, Abhinav Shrivastava
ASM-Loc:弱教師付き時空間行動局所化のための行動認識型セグメントモデリング
要約

弱教師付き時系列行動局所化(Weakly-supervised Temporal Action Localization, WTAL)は、学習に使用するラベルが動画全体レベルの行動ラベルのみであるという条件下で、非トリム(untrimmed)動画内の行動セグメントを認識し局所化することを目的としています。行動セグメントの境界情報を得られない状況下で、従来の手法は主に複数インスタンス学習(Multiple Instance Learning, MIL)に依存しており、ラベルの付与されたバッグ(即ち、非トリム動画)の分類を通じて、ラベルなしのインスタンス(すなわち、動画スニペット)の予測を監督します。しかし、このアプローチは通常、動画内のスニペットを独立したインスタンスとして扱うため、行動セグメント内およびセグメント間の時間的構造を無視しています。この問題に対処するため、本研究では、標準的なMILに基づく手法を超越し、明示的かつ行動に敏感なセグメントモデリングを可能にする新しいWTALフレームワーク「\system」を提案します。本フレームワークは、以下の3つのセグメント中心の構成要素から構成されています:(i) 短時間の行動の寄与を補完するための動的セグメントサンプリング;(ii) 行動のダイナミクスをモデル化し、時間的依存関係を捉えるための内部および跨セグメント注意機構;(iii) 行動境界予測の精度向上を目的とした疑似インスタンスレベルの監督。さらに、モデルの訓練プロセスに沿って行動候補を段階的に改善するためのマルチステップ精製戦略も提案しています。THUMOS-14およびActivityNet-v1.3の広範な実験により、本手法の有効性が実証され、両データセットにおいて新たなSOTA(State-of-the-Art)を達成しました。コードおよびモデルは、~\url{https://github.com/boheumd/ASM-Loc}にて公開されています。

ASM-Loc:弱教師付き時空間行動局所化のための行動認識型セグメントモデリング | 最新論文 | HyperAI超神経