15日前

マルチラベル時系列アクション検出のためのデュアル DETR

Yuhan Zhu, Guozhen Zhang, Jing Tan, Gangshan Wu, Limin Wang
マルチラベル時系列アクション検出のためのデュアル DETR
要約

時系列行動検出(Temporal Action Detection: TAD)は、カットされていない動画内において、行動の開始・終了時刻とそのカテゴリを同定することを目的としている。オブジェクト検出において成功を収めたDETRのアプローチに触発され、複数の手法がTADタスクにクエリベースのフレームワークを適用している。しかし、これらの手法は主にDETRのアプローチに従い、行動をインスタンスレベル(すなわち、各行動の中心点によって識別)で予測するため、境界の局所化精度が最適化されていないという課題がある。この問題に対処するために、本研究では新たな二段階クエリベースTADフレームワーク、すなわちDualDETRを提案する。DualDETRは、インスタンスレベルと境界レベルの両方から行動を検出することを可能にする。異なるレベルでのデコードには、異なる粒度の意味情報を要するため、二本の分岐を持つデコード構造を導入した。この構造により、各レベルに特化したデコードプロセスを構築し、それぞれのレベルにおける時間的特徴と意味情報を明示的に捉えることを可能にした。二本の分岐構造を基盤として、両レベルのクエリを整合するための統合的クエリ初期化戦略を提示する。具体的には、エンコーダーが生成する候補領域を用いて、各レベルのクエリを一対一でマッチングする。その後、マッチングされたクエリは、対応する行動候補からの位置情報および内容に関する事前知識に基づいて初期化される。このように整合された二段階クエリは、後続のデコードプロセスにおいて、補完的な情報を用いてマッチングされた候補を精緻化することができる。本手法は、3つの挑戦的なマルチラベルTADベンチマーク上で評価された。実験結果から、従来の最先端手法に比べてDualDETRが優れた性能を発揮することが示され、det-mAPにおいて顕著な向上が達成され、seg-mAPにおいても優れた結果が得られた。

マルチラベル時系列アクション検出のためのデュアル DETR | 最新論文 | HyperAI超神経