11일 전

AutoLoc: 트림되지 않은 영상에서 약한 감독(Temporal Action Localization)

{Shih-Fu Chang, Kazuyuki Miyazawa, Hang Gao, Zheng Shou, Lei Zhang}
AutoLoc: 트림되지 않은 영상에서 약한 감독(Temporal Action Localization)
초록

자르지 않은 영상(untimed video)에서의 시간적 행동 지역화(Temporal Action Localization, TAL)는 다양한 응용 분야에서 매우 중요하다. 그러나 행동 클래스와 시간적 경계를 포함한 세그먼트 수준의 참조값(ground truth)을 주석화하는 것은 매우 비용이 크다. 이로 인해 학습 시 영상 수준의 주석만 제공되는 약한 감독(weak supervision)을 활용한 TAL 해결 방안에 대한 관심이 높아지고 있다. 그러나 현재 최고 수준의 약한 감독 TAL 기법들은 시간에 따른 우수한 클래스 활성화 시퀀스(Class Activation Sequence, CAS) 생성에만 초점을 맞추고 있으며, 행동 지역화를 위해 CAS에 단순한 임계값(thresholding)을 적용하는 수준에 머무르고 있다. 본 논문에서는 먼저 각 행동 인스턴스의 시간적 경계를 직접 예측할 수 있는 새로운 약한 감독 TAL 프레임워크인 AutoLoc을 제안한다. 또한, 이러한 경계 예측기의 학습을 위해 필요한 세그먼트 수준의 감독 정보를 자동으로 탐지할 수 있도록 새로운 외부-내부 대조(Outer-Inner-Contrastive, OIC) 손실 함수를 제안한다. 제안한 방법은 극적인 성능 향상을 달성하였으며, IoU 임계값 0.5 기준으로 THUMOS'14에서 mAP를 13.7%에서 21.2%로, ActivityNet에서는 7.4%에서 27.3%로 향상시켰다. 특히, 약한 감독 기법임에도 불구하고 일부 완전 감독 기법과 경쟁 가능한 성능을 달성한 점은 매우 긍정적인 결과로 평가할 수 있다.

AutoLoc: 트림되지 않은 영상에서 약한 감독(Temporal Action Localization) | 최신 연구 논문 | HyperAI초신경