12일 전

약한 감독 하에 동작성(Guided)을 통한 거짓 긍정 감소를 활용한 시계열 동작 지역화

{Zilei Wang, Zhilin Li}
초록

약한 지도(temporal action localization)는 비트림된 영상(video)에서 동작 인스턴스의 시간적 경계를 비디오 수준의 레이블을 이용해 탐지하고, 해당 동작에 맞는 카테고리를 할당하는 것을 목표로 한다. 일반적으로 이 문제는 “분류를 통한 탐지(classification-by-localization)”라고 불리는 파이프라인을 통해 해결되며, 영상 조각(snippet)을 분류함으로써 동작 인스턴스를 탐지한다. 그러나 이 접근법은 비디오 수준의 분류 목적 함수를 최적화하기 때문에, 동작 카테고리와 관련된 장면 정보로부터 간섭을 받게 되어 예측 결과에 다수의 오분류(오진 양성, false positives)가 발생하는 문제가 있다. 기존의 많은 연구들은 배경(background)을 별도의 카테고리로 간주하여 모델이 배경 조각을 구분하도록 강제한다. 그러나 약한 지도 조건 하에서는 배경 정보가 모호하고 불확실하기 때문에, 이러한 접근은 매우 어려운 과제이다. 오진 양성의 영향을 완화하기 위해, 본 연구에서는 새로운 actionness 기반의 오진 양성 억제 프레임워크를 제안한다. 제안하는 방법은 배경 카테고리를 도입하지 않고도 오진 양성 배경을 효과적으로 억제하는 것을 목표로 한다. 먼저, 비디오 레이블을 무시함으로써 카테고리에 의존하지 않는 actionness 정보를 학습하는 자기 학습(self-training) actionness 브랜치를 제안한다. 이를 통해 카테고리 관련 장면 정보의 간섭을 최소화할 수 있다. 둘째, 오진 양성 조각을 탐지하고 억제하는 오진 양성 억제 모듈을 제안한다. 셋째, 주의 메커니즘(attention mechanism)과 카테고리에 의존하지 않는 actionness 정보를 활용하여 전경(foreground)을 강화하는 전경 강화 모듈을 도입한다. 제안된 방법은 THUMOS14, ActivityNet1.2, ActivityNet1.3 세 가지 벤치마크에서 광범위한 실험을 수행하였으며, 실험 결과는 제안한 방법이 오진 양성을 효과적으로 억제함과 동시에 최신 기술(SOTA) 수준의 성능을 달성함을 입증하였다. 코드: https://github.com/lizhilin-ustc/AFPS.

약한 감독 하에 동작성(Guided)을 통한 거짓 긍정 감소를 활용한 시계열 동작 지역화 | 최신 연구 논문 | HyperAI초신경