2달 전
D3D: Distilled 3D Networks for Video Action Recognition D3D: 비디오 동작 인식을 위한 정제된 3D 네트워크
Jonathan C. Stroud; David A. Ross; Chen Sun; Jia Deng; Rahul Sukthankar

초록
비디오 동작 인식을 위한 최신 방법들은 일반적으로 두 개의 네트워크 앙상블을 사용합니다: 입력으로 RGB 프레임을 사용하는 공간 스트림과 입력으로 광학 흐름(Optical Flow)을 사용하는 시간 스트림입니다. 최근 연구에서는 이 두 스트림 모두 3차원 합성곱 신경망(3D Convolutional Neural Networks, 3D CNNs)으로 구성되며, 비디오 클립에 시공간 필터를 적용한 후 분류를 수행합니다. 개념적으로, 시간 필터는 공간 스트림이 운동 표현(Motion Representations)을 학습할 수 있도록 해야 하므로, 시간 스트림은 불필요하게 여겨집니다. 그러나 여전히 별도의 시간 스트림을 포함함으로써 동작 인식 성능에서 상당한 이점을 보고 있어, 공간 스트림이 시간 스트림에서 포착된 일부 신호를 "누락"하고 있음을 나타냅니다.본 연구에서는 먼저 3D CNNs의 공간 스트림에서 운동 표현이 실제로 누락되었는지 조사합니다. 둘째로, 이러한 운동 표현을 증류(Distillation)를 통해 개선할 수 있음을 보여주는데, 공간 스트림을 시간 스트림의 출력을 예측하도록 조정하여 두 모델을 효과적으로 하나의 스트림으로 통합합니다. 마지막으로, 우리의 증류된 3D 네트워크(Distilled 3D Network, D3D)가 단일 모델만 사용하고 광학 흐름 계산이 필요 없음에도 불구하고 두 스트림 접근법과 맞먹는 성능을 달성함을 입증합니다.