11일 전
제안 없이 전역 세그멘테이션 마스크 학습을 통한 시계열 행동 탐지
Sauradip Nag, Xiatian Zhu, Yi-Zhe Song, Tao Xiang

초록
기존의 시간적 행동 탐지(Temporal Action Detection, TAD) 방법들은 비디오당 수천 개 이상의 후보 구간(proposal)을 생성하는 데 의존한다. 이로 인해 후보 생성 및 각 후보에 대한 행동 인스턴스 평가 과정이 복잡해지며, 결과적으로 높은 계산 비용이 발생한다. 본 연구에서는 처음으로 전역 분할 마스크(Global Segmentation mask)를 활용한 후보 없이(Proposal-free) 시간적 행동 탐지 모델인 TAGS를 제안한다. 본 연구의 핵심 아이디어는 전체 비디오 길이에 걸쳐 각 행동 인스턴스의 전역 분할 마스크를 동시에 학습하는 것이다. TAGS 모델은 기존의 후보 기반 방법과는 근본적으로 차별화되며, 후보 없이 전역 시간적 표현을 학습함으로써 직접적으로 행동 인스턴스의 시작점과 종료점을 탐지한다. 또한 개별 후보 수준에서 국소적으로 처리하는 것이 아니라 TAD 문제를 종합적으로 모델링함으로써, 훨씬 간단한 모델 아키텍처를 사용할 수 있으며, 계산 비용도 크게 감소한다. 광범위한 실험을 통해 TAGS는 더 간단한 설계에도 불구하고 기존 TAD 방법들을 모두 상회하며, 두 가지 주요 벤치마크에서 새로운 최고 성능(SOTA)을 달성함을 확인했다. 특히 학습 속도는 약 20배 빠르고, 추론 효율성은 약 1.6배 향상된다. TAGS의 PyTorch 기반 구현 코드는 다음 주소에서 공개되어 있다: https://github.com/sauradip/TAGS.