11일 전

BasicTAD: 시계열 행동 탐지를 위한 놀라운 RGB 전용 기준선

Min Yang, Guo Chen, Yin-Dong Zheng, Tong Lu, Limin Wang
BasicTAD: 시계열 행동 탐지를 위한 놀라운 RGB 전용 기준선
초록

시간 행동 탐지(Temporal Action Detection, TAD)는 영상 이해 분야에서 일반적으로 이미지 객체 탐지 파이프라인을 따르며 광범위하게 연구되고 있다. 그러나 TAD에서는 두 가지 스트림 특징 추출, 다단계 학습, 복잡한 시계열 모델링, 전역적 맥락 융합 등과 같은 복잡한 설계가 흔히 나타난다. 본 논문에서는 TAD를 위한 새로운 기술을 제안하는 데 목적이 아니라, 현재 TAD의 복잡한 설계와 낮은 탐지 효율성이라는 상황을 고려할 때 반드시 알아야 할 단순하고 명확한 기준선(baseline)을 탐구하는 데 초점을 맞춘다. 제안하는 단순한 기준선(BasicTAD)에서는 TAD 파이프라인을 데이터 샘플링, 백본 설계, 넥(neck) 구성, 탐지 헤드 등 몇 가지 핵심 구성 요소로 분해한다. 각 구성 요소에서 기존 기술들을 철저히 조사하였으며, 특히 설계의 단순성 덕분에 전체 파이프라인에 대해 엔드투엔드(end-to-end) 학습을 수행할 수 있었다. 그 결과, 매우 단순한 BasicTAD는 상태 기준(SOTA) 수준에 근접한 실시간 RGB-only 기준선을 달성하였다. 또한, 네트워크 표현에서 더 많은 시공간 정보를 보존함으로써 BasicTAD를 further 개선한 PlusTAD를 제안한다. 실험 결과, PlusTAD는 매우 효율적이며 THUMOS14 및 FineAction 데이터셋에서 기존 방법들을 크게 능가함을 보였다. 더불어 제안한 방법에 대해 깊이 있는 시각화 및 오류 분석을 수행하여 TAD 문제에 대한 보다 깊은 통찰을 제공하고자 하였다. 본 연구의 접근법은 향후 TAD 연구를 위한 강력한 기준선으로 활용될 수 있다. 코드 및 모델은 https://github.com/MCG-NJU/BasicTAD 에 공개될 예정이다.

BasicTAD: 시계열 행동 탐지를 위한 놀라운 RGB 전용 기준선 | 최신 연구 논문 | HyperAI초신경