2달 전

비디오 표현 학습을 위한 주의력 증류

Miao Liu; Xin Chen; Yun Zhang; Yin Li; James M. Rehg
비디오 표현 학습을 위한 주의력 증류
초록

우리는 비디오 인식을 위해 딥 모델을 사용하여 움직임 표현을 학습하는 어려운 문제를 다룹니다. 이를 위해 주의 모듈(attention modules)을 활용하여 비디오에서 중요한 영역을 강조하고 인식을 위한 특징들을 집계합니다. 구체적으로, 움직임(플로우, flow) 네트워크에서 학습된 표현을 RGB 네트워크로 전달하기 위해 출력 주의 맵(output attention maps)을 활용하는 방법을 제안합니다. 우리는 주의 모듈의 설계를 체계적으로 연구하고, 새로운 주의 증류(attention distillation) 방법을 개발하였습니다. 우리의 방법은 주요 행동 벤치마크에서 평가되었으며, 기준 RGB 네트워크의 성능을 크게 향상시키는 것으로 일관되게 입증되었습니다. 또한, 우리의 주의 맵이 비디오 프레임에서 행동 위치를 식별하는 데 있어 움직임 신호(motion cues)를 활용할 수 있음을 보여주었습니다. 우리는 이 방법이 딥 모델에서 움직임 인지 표현(motion-aware representations)을 학습하는 데 한 걸음 더 나아가는 것이라고 믿습니다. 우리 프로젝트 페이지는 https://aptx4869lm.github.io/AttentionDistillation/ 에서 확인할 수 있습니다.