PointTAD: 학습 가능한 쿼리 포인트를 활용한 다중 레이블 시계열 행동 탐지

기존의 시간적 행동 탐지(Temporal Action Detection, TAD)는 일반적으로 ActivityNet, THUMOS와 같이 단일 레이블에서 소수의 행동 인스턴스를 포함한 트림되지 않은 영상(untimed video)을 다룬다. 그러나 실제 상황에서는 다양한 종류의 행동이 동시에 발생하는 경우가 많기 때문에 이러한 설정은 현실과 거리가 있을 수 있다. 본 논문에서는 다중 레이블 시간적 행동 탐지(multi-label TAD)라는 새로운 과제에 초점을 맞추며, 다중 레이블이 부여된 트림되지 않은 영상에서 모든 행동 인스턴스를 정확히 탐지하는 것을 목표로 한다. 다중 레이블 TAD는 동일한 영상 내에서 다양한 행동이 동시에 존재할 경우, 각 행동을 세밀하게 구분하고 동시에 발생하는 인스턴스를 정확히 위치해야 하므로 기존 TAD보다 훨씬 더 도전적이다. 이를 해결하기 위해, 기존 TAD에서 사용하는 희소 쿼리 기반 탐지 패러다임을 확장하여 PointTAD라는 새로운 다중 레이블 TAD 프레임워크를 제안한다. 구체적으로, PointTAD는 각 행동 인스턴스의 중요한 프레임을 표현하기 위해 학습 가능한 소수의 쿼리 포인트를 도입한다. 이 포인트 기반 표현은 행동 경계 근처의 구분력 있는 프레임뿐 아니라 행동 내부의 중요한 프레임도 유연하게 탐지할 수 있는 메커니즘을 제공한다. 또한, 다중 수준 상호작용 모듈(Multi-level Interactive Module)을 활용하여 포인트 수준과 인스턴스 수준의 행동 의미를 동시에 포착하는 행동 디코딩 과정을 수행한다. 마지막으로, PointTAD는 RGB 입력 기반의 엔드투엔드 학습 가능한 프레임워크를 사용하여 간편한 배포가 가능하다. 제안한 방법은 두 가지 대표적인 벤치마크에서 평가되었으며, 다중 레이블 TAD에 적합한 새로운 평가 지표인 detection-mAP를 도입하였다. 실험 결과, detection-mAP 기준으로 기존 모든 방법을 크게 앞서며 우수한 성능을 기록하였으며, segmentation-mAP 기준에서도 훌륭한 결과를 달성하였다. 코드는 https://github.com/MCG-NJU/PointTAD 에 공개되어 있다.