액션성 불일치 유도형 대조 학습을 통한 약한 감독 하의 시계열 액션 로컬라이제이션
약한 감독(Temporal Action Localization, WTAL)은 비디오 수준의 레이블만을 이용하여 행동 인스턴스를 탐지하는 것을 목표로 한다. 이 문제를 해결하기 위해 최근의 방법들은 일반적으로 클래스 인식 가능(class-aware) 브랜치와 클래스 무관(class-agnostic) 브랜치로 구성된 이중 브랜치 프레임워크를 사용한다. 원칙적으로 두 브랜치는 동일한 액션성(activation)을 생성해야 하지만, 본 연구에서는 실제로 많은 불일치한 활성화 영역이 존재함을 관찰하였다. 이러한 불일치 영역은 보통 의미 정보(행동 또는 배경)가 모호한 도전적인 세그먼트를 포함하고 있다. 본 연구에서는 이러한 불일치된 세그먼트의 표현 학습을 강화하기 위해 일관된 세그먼트를 활용하는 새로운 행동성 불일치 유도 대조 학습(Actionness Inconsistency-guided Contrastive Learning, AICL) 방법을 제안한다. 구체적으로, 두 브랜치의 예측을 비교하여 일관된 세그먼트와 불일치된 세그먼트를 정의한 후, 일관된 세그먼트와 불일치된 세그먼트 간에 긍정 및 부정 쌍을 구성하여 대조 학습을 수행한다. 또한, 일관된 샘플이 존재하지 않는 평균적인 경우를 방지하기 위해 두 브랜치 간의 차이를 제어하는 행동 일관성 제약 조건을 도입한다. 제안한 AICL은 THUMOS14, ActivityNet v1.2, ActivityNet v1.3 데이터셋에서 광범위한 실험을 수행하였으며, 기존 최고 성능(SOTA)을 달성하는 효과가 입증되었다. 코드는 https://github.com/lizhilin-ustc/AAAI2023-AICL 에서 공개되어 있다.