
초록
문헌에 제시된 대부분의 활동 위치 추정 방법은 프레임 단위 주석이 필요한 부담을 겪고 있습니다. 약한 라벨에서 학습하는 것은 이러한 수작업 라벨링 작업을 줄이는 잠재적인 해결책일 수 있습니다. 최근 몇 년간 인터넷상에서 태그가 붙은 동영상의 유입이 급증하여, 이는 약한 감독 하에 훈련 데이터를 제공할 수 있는 풍부한 출처가 될 수 있습니다. 특히, 비슷한 태그를 가진 동영상 간의 상관관계를 활용하여 시간적으로 활동을 위치 추정할 수 있습니다. 이 목표를 달성하기 위해, 우리는 W-TALC(Weakly-supervised Temporal Activity Localization and Classification)라는 비디오 레벨 라벨만을 사용하는 약한 감독 하의 시간적 활동 위치 추정 및 분류 프레임워크를 제안합니다. 제안된 네트워크는 두 개의 하위 네트워크로 나눌 수 있으며, 이는 Two-Stream 기반 특징 추출기 네트워크와 약한 감독 모듈로 구성됩니다. 우리는 두 개의 보완적인 손실 함수를 최적화하여 이 모듈들을 학습합니다. Thumos14와 ActivityNet1.2라는 두 가지 어려운 데이터셋에서 얻은 정성적 및 정량적 결과는 제안된 방법이 세밀한 단위로 활동을 검출하고, 현재 최신 방법들보다 더 우수한 성능을 발휘함을 입증합니다.