11日前

BasicTAD:時空間行動検出における驚異的なRGBのみを用いたベースライン

Min Yang, Guo Chen, Yin-Dong Zheng, Tong Lu, Limin Wang
BasicTAD:時空間行動検出における驚異的なRGBのみを用いたベースライン
要約

時間的行動検出(Temporal Action Detection: TAD)は、画像における物体検出パイプラインを踏襲する形で、動画理解分野において広く研究されている。しかし、TADでは二重ストリーム特徴抽出や多段階学習、複雑な時系列モデリング、グローバルな文脈融合といった、しばしば複雑な設計が採用されることが一般的である。本論文では、TADにおける新たな技術の導入を目的とするのではなく、現在のTADにおいて複雑な設計が進展している一方で検出効率が低いという状況を踏まえ、シンプルかつ直感的でありながらも必須とされるベースラインの検討を行う。本研究で提案する単純なベースライン(BasicTAD)では、TADパイプラインをデータサンプリング、バックボーン設計、ネック構築、検出ヘッドという幾つかの必須要素に分解し、各要素における既存技術を体系的に調査する。さらに、設計の単純さを活かして、パイプライン全体をエンドツーエンドで学習可能である点が重要である。その結果、シンプルなBasicTADは、二重ストリーム入力を持つ最新の手法に匹敵する、非常に高い性能を発揮するリアルタイムRGBオンリーのベースラインを実現した。さらに、ネットワーク表現における時間的・空間的情報の保持を強化することで、BasicTADを拡張したPlusTADを提案した。実験結果から、PlusTADは高い効率性を発揮し、THUMOS14およびFineActionのデータセットにおいて、従来の手法を顕著に上回ることが確認された。また、提案手法について深く可視化および誤差分析を行い、TAD問題に対する新たな知見を提供することを試みた。本研究のアプローチは、今後のTAD研究における強力なベースラインとして機能するものである。コードおよびモデルは、https://github.com/MCG-NJU/BasicTAD にて公開される予定である。

BasicTAD:時空間行動検出における驚異的なRGBのみを用いたベースライン | 最新論文 | HyperAI超神経