
약한 감독(Temporal Action Localization)을 통한 시계열 행동 탐지는 비디오 수준의 레이블만을 이용하여 행동 클래스의 시계열 구간을 탐지하는 것을 목표로 한다. 이를 달성하기 위해, 행동 클래스에 속하지 않는 배경 프레임(즉, 어떤 행동 클래스에도 속하지 않는 프레임)과 행동 클래스 프레임을 구분하는 것이 매우 중요하다. 본 논문에서는 배경 프레임을 그 일관성 부족에 기반하여 분포 외(out-of-distribution) 샘플로 모델링하는 새로운 시각을 제안한다. 이에 따라 각 프레임이 분포 외일 확률을 추정함으로써 배경 프레임을 탐지할 수 있는데, 이를 '불확실성(uncertainty)'이라고 한다. 그러나 프레임 수준의 레이블 없이 직접 불확실성을 학습하는 것은 불가능하다. 약한 감독 설정에서 불확실성 학습을 실현하기 위해, 우리는 다중 예제 학습(Multiple Instance Learning, MIL) 설정을 활용한다. 더불어 배경 프레임을 보다 효과적으로 구분하기 위해, 모든 행동 클래스에 대해 분포 내(in-distribution) 확률이 균일하게 분포되도록 유도하는 배경 엔트로피 손실(Background Entropy Loss)을 도입한다. 실험 결과, 제안하는 불확실성 모델링이 배경 프레임의 간섭을 효과적으로 완화하며, 복잡한 부가 기법 없이도 큰 성능 향상을 가져온다는 것을 입증하였다. 제안한 모델은 THUMOS'14 및 ActivityNet (1.2 및 1.3) 기준에서 기존 최고 성능 모델들을 상회함을 실험적으로 확인하였다. 코드는 https://github.com/Pilhyeon/WTAL-Uncertainty-Modeling 에 공개되어 있다.