17일 전

약한 감독 하의 시계열 동작 로컬라이제이션을 위한 완전성 모델링 및 컨텍스트 분리

{ Yizhou Wang, Tingting Jiang, Daochang Liu}
약한 감독 하의 시계열 동작 로컬라이제이션을 위한 완전성 모델링 및 컨텍스트 분리
초록

시간적 동작 로컬라이제이션은 정제되지 않은 영상의 이해에 있어 핵심적인 역할을 한다. 본 연구에서는 시간적 동작 로컬라이제이션에 대한 약한 감독(weak supervision)에 의해 간과된 두 가지 문제를 처음으로 규명한다. 이는 동작의 완전성 모델링과 동작-맥락 분리이다. 이를 해결하기 위해 새로운 네트워크 아키텍처와 학습 전략을 제안하며, 두 문제를 명시적으로 다룬다. 구체적으로, 동작의 완전성을 모델링하기 위해 다중 분기(multi-branch) 신경망을 제안한다. 이 분기들은 서로 다른 동작 부분을 탐지하도록 강제되며, 각 분기에서 발생하는 활성화를 융합함으로써 완전한 동작을 정확히 로컬라이제이션할 수 있다. 또한, 동작 인스턴스와 주변 맥락을 분리하기 위해, 정지된 영상 클립은 동작일 가능성이 낮다는 사전 지식을 활용하여 어려운 음성 데이터(hard negative data)를 생성하여 학습에 활용한다. THUMOS'14 및 ActivityNet 데이터셋에서 수행된 실험 결과, 제안하는 프레임워크가 최첨단 기법들을 상회함을 확인하였다. 특히 ActivityNet v1.2에서의 평균 mAP는 18.0%에서 22.4%로 유의미하게 향상되었다. 본 연구의 코드는 곧 공개될 예정이다.

약한 감독 하의 시계열 동작 로컬라이제이션을 위한 완전성 모델링 및 컨텍스트 분리 | 최신 연구 논문 | HyperAI초신경