18일 전

Few-shot 비디오 인식을 위한 깊이 지도형 적응형 메타퓨전 네트워크

Yuqian Fu, Li Zhang, Junke Wang, Yanwei Fu, Yu-Gang Jiang
Few-shot 비디오 인식을 위한 깊이 지도형 적응형 메타퓨전 네트워크
초록

인간은 매우 적은 예시만으로도 행동을 쉽게 인식할 수 있는 반면, 기존의 영상 인식 모델은 여전히 대규모 라벨링 데이터에 크게 의존하고 있다. 이러한 관찰은 매우 적은 수의 라벨링 샘플로 새로운 행동을 학습하는 것을 목표로 하는 '소수 샘플 영상 행동 인식(few-shot video action recognition)'에 대한 관심을 증가시켰다. 본 논문에서는 소수 샘플 영상 인식을 위한 깊이 지도형 적응형 메타-퓨전 네트워크(AMeFu-Net)를 제안한다. 구체적으로, 본 연구는 세 가지 측면에서 소수 샘플 인식 문제를 해결한다. 첫째, 장면을 표현하는 정보로 깊이 정보를 도입함으로써 극도로 부족한 데이터 문제를 완화한다. 이로 인해 모델은 추가적인 시각적 정보를 획득할 수 있다. 둘째, 시간 비동기 증강 기법을 통해 샘플링된 다수의 엄격하지 않은 깊이 클립과 원본 RGB 클립의 표현을 융합함으로써 특징 수준에서 새로운 인스턴스를 합성한다. 셋째, 두 개의 스트림 모달리티를 효율적으로 융합하기 위해 새로운 '깊이 지도형 적응형 인스턴스 정규화(DGAdaIN)' 퓨전 모듈을 제안한다. 또한, 소수 샘플 인식 과정을 보다 자연스럽게 모방하기 위해 모델은 메타 학습 방식으로 학습된다. 다양한 행동 인식 벤치마크에서 실시한 광범위한 실험을 통해 본 모델의 효과성을 입증하였다.

Few-shot 비디오 인식을 위한 깊이 지도형 적응형 메타퓨전 네트워크 | 최신 연구 논문 | HyperAI초신경