
要約
従来の時系列行動検出(TAD)手法は、1動画あたり極めて多数の候補領域(proposal)を生成することに依存している。このため、候補領域の生成や個々の候補領域における行動インスタンスの評価に伴い、モデル設計が複雑化し、計算コストが高くなるという問題がある。本研究では、初めて提案領域を不要とする「グローバルセグメンテーションマスクを用いた時系列行動検出モデル(TAGS)」を提案する。本モデルの核心的なアイデアは、各行動インスタンスについて、動画全体の長さにわたるグローバルなセグメンテーションマスクを同時に学習することにある。TAGSは従来の提案ベースの手法とは大きく異なり、局所的な候補領域の評価に依存せず、動画全体の時系列表現を学習することで、直接的に行動インスタンスの開始時刻と終了時刻を検出する。さらに、個々の提案レベルでの局所的処理ではなく、TADを全体的に捉えるアプローチを採用することで、大幅に簡素化されたモデルアーキテクチャを実現し、計算コストを低減できる。広範な実験の結果、シンプルな設計にもかかわらず、既存のTAD手法を上回る性能を達成し、2つのベンチマークにおいて新たな最先端(SOTA)の成績を記録した。特に、学習速度は約20倍速く、推論効率は約1.6倍向上している。TAGSのPyTorch実装は、https://github.com/sauradip/TAGS にて公開されている。