16日前
時系列行動局所化における強化された即時識別可能性
Dingfeng Shi, Qiong Cao, Yujie Zhong, Shan An, Jian Cheng, Haogang Zhu, Dacheng Tao

要約
時系列行動検出(Temporal Action Detection, TAD)は、トリムされていない動画内に存在するすべての行動の境界とその対応するカテゴリを検出することを目的としている。動画における行動境界の曖昧さは、従来の手法が行動境界を精度よく予測できない原因となっている。この問題を解決するために、本研究では1段階型のフレームワークであるTriDetを提案する。まず、境界周辺の相対確率分布を推定することで行動境界をモデル化する「Trident-head」を提案する。次に、Transformerベースの手法におけるランク損失問題(すなわち、瞬時判別性の低下)を分析し、効率的かつスケーラブルな粒度感知(Scalable-Granularity Perception, SGP)層を提案することで、この問題を緩和する。さらに、動画バックボーンにおける瞬時判別性の限界をさらに押し上げるため、事前学習済みの大規模モデルの強力な表現能力を活用し、TADにおけるその性能を検証した。最後に、分類に適した十分な空間時系列的文脈を考慮し、分離された特徴ピラミッドを備えたデカップルド特徴ピラミッドネットワークを設計することで、大規模モデルから得られる豊富な空間的文脈を局所化に組み込む。実験結果から、TriDetの堅牢性と、階層的(マルチラベル)TADデータセットを含む複数のTADデータセットにおける最先端の性能が確認された。