ACM-Net: 약한 감독 하의 시계열 행동 탐지를 위한 행동 컨텍스트 모델링 네트워크

약한 감독(Temporal Action Localization)을 통한 시계열 행동 탐지는 단지 영상 수준의 레이블만을 이용하여 행동의 시계열 경계를 탐지하고 해당 행동 카테고리를 식별하는 것을 목표로 한다. 기존의 방법들은 단일한 어텐션 브랜치와 클래스 활성화 시퀀스를 활용하여 전경(foreground) 프레임과 배경(background) 프레임을 분리하는 데 주력해왔다. 그러나 본 연구에서는 전경과 배경 프레임 외에도 의미적으로 모호한 행동 맥락(context) 프레임이 다수 존재한다고 주장한다. 이러한 맥락 프레임은 특정 행동 카테고리와 의미적으로 관련이 있으므로, 단순히 모두 배경 클래스로 묶는 것은 적절하지 않다. 따라서 단일한 클래스 활성화 시퀀스만으로는 행동 맥락 프레임을 효과적으로 억제하는 것은 매우 어렵다. 이 문제를 해결하기 위해 본 논문에서는 ACM-Net이라는 행동-맥락 모델링 네트워크를 제안한다. 이 네트워크는 각 시계열 점이 행동 인스턴스, 맥락, 또는 비행동 배경인지의 가능성을 동시에 측정하기 위해 삼중 어텐션 브랜치 모듈을 통합한다. 이후 얻어진 삼중 어텐션 값 기반으로, 행동 인스턴스, 맥락, 비행동 배경을 각각 대표하는 삼중 클래스 활성화 시퀀스를 구성한다. 제안한 ACM-Net의 효과성을 평가하기 위해 THUMOS-14 및 ActivityNet-1.3 두 가지 벤치마크 데이터셋에서 광범위한 실험을 수행하였다. 실험 결과, 기존 최고 성능(SOTA) 방법들을 초월하며, 완전 감독(fully-supervised) 방법과 비교해도 경쟁 가능한 성능을 달성함을 확인하였다. 코드는 https://github.com/ispc-lab/ACM-Net 에서 확인할 수 있다.