2달 전

약한 감독 하의 시계열 행동 탐지를 위한 다중 수준의 의미적 및 적응형 행동성 학습

{Cerui Dong, Zilei Wang, Zhilin Li}
약한 감독 하의 시계열 행동 탐지를 위한 다중 수준의 의미적 및 적응형 행동성 학습
초록

약한 감독 하의 시계적 행동 위치 지정은 전체 영상에 대한 비디오 레벨 레이블만을 사용하여 비트리밍 영상 내의 행동 인스턴스를 식별하고 위치 지정하는 것을 목표로 한다. 일반적으로 대부분의 기법은 다중 인스턴스 학습(MIL) 프레임워크를 기반으로 하며, 전체 영상을 대표하는 중요한 세그먼트를 선택하기 위해 상위-K( top-K) 전략을 사용한다. 그러나 이러한 접근 방식은 세부적인 영상 정보를 충분히 학습할 수 없어 행동 분류 및 위치 지정 성능이 저하되는 문제가 있다. 본 논문에서는 다수준 의미 학습(MSL) 브랜치와 적응형 액션성 학습(AAL) 브랜치로 구성된 다수준 의미 및 적응형 액션성 학습 네트워크(SAL)를 제안한다. MSL 브랜치는 2차 순서 영상 의미(second-order video semantics)를 도입하여 영상 내의 세부적인 정보를 포착하고, 비디오 레벨 분류 성능을 향상시킨다. 또한, 이러한 2차 순서 의미를 행동 세그먼트에 전파함으로써 서로 다른 행동 간의 구분력을 강화한다. AAL 브랜치는 가상 레이블(pseudo labels)을 활용하여 클래스 무관(class-agnostic) 행동 정보를 학습한다. 이를 위해 전경 일반화 능력을 향상시키기 위해 영상 세그먼트 믹스업(mix-up) 전략을 도입하고, 적응형 액션성 마스크(adaptive actionness mask)를 추가하여 가상 레이블의 품질과 양의 균형을 조절함으로써 학습의 안정성을 제고한다. 광범위한 실험 결과를 통해 SAL이 세 가지 벤치마크에서 최신 기술(SOTA) 수준의 성능을 달성함을 확인하였다. 코드: https://github.com/lizhilin-ustc/SAL