
초록
비디오 데이터에서 움직이는 영역에서 발생하는 복잡한 운동 정보는 주파수 도메인 내 특정 주파수 대역에 집중되어 전달된다. 반면, 비디오 데이터의 나머지 주파수는 상대적으로 조용한 정보를 담고 있으며, 이 정보는 상당한 중복성을 지닌다. 이러한 특성은 기존의 원시 RGB 프레임을 입력으로 사용하는 비디오 모델에서 처리 효율성이 낮아지는 원인이 된다. 본 논문에서는 중요한 운동 정보(버지 정보) 처리에 더 강한 계산 자원을 할당하고, 조용한 정보 처리에는 보다 적은 계산 자원을 할당하는 전략을 고려한다. 이를 위해 원시 비디오 데이터에서 버지 정보와 조용한 정보를 분리하기 위한 학습 가능한 운동 밴드패스 모듈(Motion Band-Pass Module, MBPM)을 설계하였다. MBPM을 이중 경로형 CNN 아키텍처에 통합함으로써, 버지-조용 네트워크(Busy-Quiet Net, BQN)를 제안한다. BQN의 효율성은 두 경로가 처리하는 특징 공간에서 중복을 피함으로써 달성된다. 하나의 경로는 저해상도의 조용한 특징을 처리하고, 다른 경로는 버지 특징을 처리한다. 제안한 BQN은 Something-Something V1, Kinetics400, UCF101, HMDB51 등 다양한 데이터셋에서 최근의 여러 비디오 처리 모델들을 능가하는 성능을 보였다.