12日前

弱教師付き時空間行動定位のための多レベル意味的かつ適応的アクションネス学習

{Cerui Dong, Zilei Wang, Zhilin Li}
要約

弱教師付き時系列行動局所化(Weakly supervised temporal action localization)は、動画レベルのラベルのみを用いて、非トリム動画内に存在する行動インスタンスの検出と局所化を目的とする。従来の大多数の手法は、複数インスタンス学習(Multiple Instance Learning: MIL)フレームワークに基づいており、全体の動画を代表する顕著なセグメントをtop-K戦略で選択する。しかし、このアプローチでは細粒度な動画情報が学習できず、結果として行動分類および局所化性能が劣ることが問題視されている。本論文では、マルチレベルセマンティクス学習(Multilevel Semantic Learning: MSL)ブランチと、適応的アクションネス学習(Adaptive Actionness Learning: AAL)ブランチから構成される、マルチレベルセマンティクスと適応的アクションネス学習ネットワーク(SAL: Semantic and Adaptive Actionness Learning Network)を提案する。MSLブランチは2次元の動画セマンティクスを導入することで、動画内の細粒度情報を捉え、動画レベルの分類性能を向上させる。さらに、この2次元セマンティクスを行動セグメントに伝搬させることで、異なる行動間の区別を強化する。一方、AALブランチは擬似ラベルを用いてクラスに依存しない行動情報の学習を実現する。具体的には、前景の一般化能力を向上させるための動画セグメントミックスアップ戦略を導入し、また、擬似ラベルの品質と量のバランスを調整するための適応的アクションネスマスクを追加することで、学習の安定性を向上させる。広範な実験の結果、SALは3つのベンチマークにおいて最先端の性能を達成した。コード公開:https://github.com/lizhilin-ustc/SAL

弱教師付き時空間行動定位のための多レベル意味的かつ適応的アクションネス学習 | 最新論文 | HyperAI超神経