기반 평가 네트워크를 통한 약한 감독 하의 시계열 행동 탐지

약한 감독(Temporal Action Localization, WS-TAL)은 학습 시 비디오 수준의 행동 카테고리 레이블만 제공되는 상황에서, 시간적 행동 경계(annotation)를 요구하지 않는 매력적이지만 도전적인 과제이다. 학습 데이터에서 시간적 행동 경계 정보가 필요 없기 때문에, WS-TAL은 자동으로 추출된 비디오 태그를 비디오 수준의 레이블로 활용할 수 있다. 그러나 이러한 대략적인 비디오 수준의 감독은 특히 여러 행동 인스턴스가 포함된 트림되지 않은 비디오에서 혼란을 초래하는 경향이 있다. 이 문제를 해결하기 위해, 우리는 새로운 행동 제안 평가기(또는 평가 모듈)를 갖춘 대조 기반 위치 추정 평가 네트워크(CleanNet)를 제안한다. 이 새로운 평가기는 스크립트 수준의 행동 분류 예측에서 발생하는 시간적 대조성(temporal contrast)을 활용하여 가상의 감독 신호(pseudo-supervision)를 제공한다. 본질적으로 새로운 행동 제안 평가기는 높은 평가 점수를 받는 행동 제안이 진짜 행동 인스턴스와 더 잘 일치하도록 하는 추가적인 시간적 대조 제약을 강제한다. 또한, 새로운 행동 위치 추정 모듈은 CleanNet의 일체형 구성 요소로서 엔드투엔드(end-to-end) 학습을 가능하게 한다. 이는 기존의 많은 WS-TAL 방법들이 행동 위치 추정을 단순한 후처리 단계로 처리하는 것과 대비된다. THUMOS14 및 ActivityNet 데이터셋에서의 실험을 통해 CleanNet이 기존 최첨단 WS-TAL 알고리즘들에 비해 우수한 성능을 보임을 입증하였다.