
要約
既存のアクションチューブレット検出手法は、しばしばヒューリスティックなアンカー設計および配置に依存しており、これは計算コストが高く、正確な局所化において最適ではない場合がある。本論文では、アクションインスタンスを移動する点の軌跡として捉えることで、概念的に単純かつ計算効率が高く、より高精度なアクションチューブレット検出フレームワーク、すなわちMovingCenter Detector(MOC-Detector)を提案する。本手法の鍵となる洞察は、運動情報がアクションチューブレット検出を簡素化し、支援可能である点にある。MOC-Detectorは以下の3つの主要なヘッドブランチから構成される:(1) センター枝(Center Branch):インスタンスの中心位置の検出とアクション認識、(2) 運動枝(Movement Branch):隣接フレーム間の運動推定により、移動点の軌跡を構築、(3) ボックス枝(Box Branch):各推定された中心点に対して、境界ボックスのサイズを直接回帰することで空間的範囲を検出する。これらの3つのブランチが連携してチューブレット検出結果を生成し、マッチング戦略を用いてさらに連結することで、動画レベルのチューブを構築可能である。提案手法は、JHMDBおよびUCF101-24データセットにおいて、フレーム単位のmAPおよび動画単位のmAPの両方で、既存の最先端手法を上回る性能を達成した。特に高い動画IoU条件下での性能差が顕著であることから、本手法がより高精度なアクション検出において特に有効であることが示された。実装コードは、https://github.com/MCG-NJU/MOC-Detector にて公開している。