11日前

PointTAD: 学習可能なクエリポイントを用いたマルチラベル時系列行動検出

Jing Tan, Xiaotong Zhao, Xintian Shi, Bin Kang, Limin Wang
PointTAD: 学習可能なクエリポイントを用いたマルチラベル時系列行動検出
要約

従来の時系列行動検出(Temporal Action Detection: TAD)は、ActivityNetやTHUMOSなど、単一ラベルからなる少数の行動インスタンスを含む非トリム動画を扱うことが一般的である。しかしながら、実際のシーンでは異なる種類の行動がしばしば同時に発生するため、このような設定は現実的とは言えない。本論文では、マルチラベル非トリム動画からすべての行動インスタンスを検出することを目的としたマルチラベル時系列行動検出のタスクに注目する。マルチラベルTADは、単一の動画内で細分化されたクラス識別を要し、重複する行動インスタンスの正確な局所化を必要とするため、より高い課題性を持つ。この課題を緩和するために、従来のTADで用いられるスパースクエリベースの検出パラダイムを拡張し、PointTADと呼ばれるマルチラベルTADフレームワークを提案する。具体的には、各行動インスタンスの重要フレームを表現するため、学習可能なクエリポイントの少数を導入する。このポイントベースの表現により、行動境界における特徴的なフレームおよび行動内部の重要なフレームを柔軟に局所化することが可能となる。さらに、マルチレベル相互作用モジュール(Multi-level Interactive Module)を用いて行動デコード処理を実施し、ポイントレベルおよびインスタンスレベルの行動意味を同時に捉える。最後に、PointTADはRGB入力に基づくエンドツーエンド学習可能なフレームワークを採用しており、導入の容易さを実現している。本手法は2つの代表的なベンチマークで評価され、マルチラベルTAD用に新たに導入された検出mAP(detection-mAP)という指標において、従来のすべての手法を大幅に上回る性能を達成した。また、セグメンテーションmAP(segmentation-mAP)指標においても有望な結果を示した。コードは https://github.com/MCG-NJU/PointTAD にて公開されている。

PointTAD: 学習可能なクエリポイントを用いたマルチラベル時系列行動検出 | 最新論文 | HyperAI超神経