엔드투엔드 트랜스포머를 활용한 시계열 행동 탐지

시간적 행동 탐지(Temporal Action Detection, TAD)는 트림되지 않은 영상 내 모든 행동 인스턴스에 대해 그 의미적 레이블과 시간 간격을 결정하는 것을 목표로 한다. 이는 영상 이해 분야에서 기초적이면서도 도전적인 과제이다. 기존의 방법들은 복잡한 파이프라인을 사용하여 이 과제를 해결해 왔다. 이러한 방법들은 종종 다수의 네트워크를 별도로 학습시켜야 하며, 비최대 억제(Non-Maximal Suppression)나 앵커 생성과 같은 수작업으로 설계된 연산을 포함하기 때문에 유연성이 제한되고 엔드투엔드 학습이 어렵다는 문제가 있었다. 본 논문에서는 TAD를 위한 엔드투엔드 Transformer 기반의 새로운 방법을 제안한다. 이를 TadTR이라고 명명한다. TadTR은 학습 가능한 임베딩으로 구성된 소규모의 '행동 쿼리(behavior queries)'를 입력으로 받아, 각 쿼리에 대해 영상에서 적응적으로 시간적 컨텍스트 정보를 추출하고, 이를 바탕으로 직접 행동 인스턴스를 예측한다. Transformer를 TAD에 적합하게 하기 위해 세 가지 개선점을 제안한다. 핵심은 영상 내 희소한 키 스니펫(key snippets)에만 선택적으로 주목하는 시간적 변형 가능 주의(Temporal Deformable Attention) 모듈이다. 또한 예측된 인스턴스의 경계를 정교화하기 위한 세그먼트 개선 메커니즘과 신뢰도를 보정하기 위한 행동성 회귀 헤드(Actionsness Regression Head)를 설계하였다. 이러한 간단한 파이프라인을 통해 TadTR은 이전 탐지기들보다 낮은 계산 비용을 요구하면서도 뛰어난 성능을 유지한다. 자체적으로 독립된 탐지기로서, THUMOS14에서는 56.7%의 mAP, HACS Segments에서는 32.09%의 mAP를 달성하여 최신 기준(SOTA) 성능을 기록하였다. 추가로 행동 분류기와 결합할 경우, ActivityNet-1.3에서 36.75%의 mAP를 달성하였다. 코드는 https://github.com/xlliu7/TadTR 에서 공개되어 있다.