ASM-Loc: 약한 감독 하에서 시계열 행동 탐지를 위한 행동 인지 세그먼트 모델링

약한 감독(Temporal Action Localization)은 학습 시 비디오 수준의 액션 레이블만 제공받는 상황에서, 트림되지 않은 비디오 내에서 액션 세그먼트를 인식하고 위치를 특정하는 것을 목표로 한다. 액션 세그먼트의 경계 정보가 부재함에 따라 기존 방법들은 주로 다중 예제 학습(Multiple Instance Learning, MIL)에 의존하며, 레이블이 없는 인스턴스(즉, 비디오 스크립트)의 예측은 레이블이 있는 백(즉, 트림되지 않은 비디오)의 분류를 통해 감독된다. 그러나 이 방식은 일반적으로 비디오 내의 스크립트를 독립적인 인스턴스로 간주하여, 액션 세그먼트 내부 및 간의 잠재적 시간적 구조를 무시한다. 이 문제를 해결하기 위해, 본 연구는 기존 MIL 기반 방법을 넘어서 명시적이고 액션 인식형 세그먼트 모델링이 가능한 새로운 WTAL 프레임워크인 \system을 제안한다. 제안된 프레임워크는 세 가지 세그먼트 중심의 구성 요소를 포함한다: (i) 짧은 액션의 기여도를 보완하기 위한 동적 세그먼트 샘플링; (ii) 액션 동역학을 모델링하고 시간적 의존성을 포착하기 위한 내부 및 상호 세그먼트 주의(attention); (iii) 액션 경계 예측 성능을 향상시키기 위한 가상의 인스턴스 수준 감독. 또한, 모델 학습 과정 동안 액션 제안을 점진적으로 개선하기 위한 다단계 정제 전략이 제안된다. THUMOS-14 및 ActivityNet-v1.3 데이터셋에서 실시한 광범위한 실험을 통해 본 방법의 효과성이 입증되었으며, 두 데이터셋 모두에서 새로운 최고 성능(SOTA)을 달성하였다. 코드와 모델은 공개적으로 제공되며, 다음 URL에서 확인할 수 있다: \url{https://github.com/boheumd/ASM-Loc}.