17일 전
RN-VID: 비디오 객체 탐지를 위한 특징 복합 아키텍처
Hughes Perreault, Maguelonne Héritier, Pierre Gravel, Guillaume-Alexandre Bilodeau, Nicolas Saunier

초록
비디오의 연속 프레임은 매우 높은 중복성을 갖는다. 따라서 영상 객체 탐지 작업을 수행할 때, 각 프레임에 대해 단일 프레임 탐지기를 적용하면서 이전 정보를 재사용하지 않는 것은 매우 낭비적이다. 이러한 아이디어를 바탕으로 본 연구에서는 RetinaNet-VIDeo(RN-VID)라는 영상 객체 탐지의 새로운 접근 방식을 제안한다. 본 연구의 기여는 두 가지로 나뉜다. 첫째, 인접 프레임에서 얻은 정보를 활용하여 특징 맵을 강화할 수 있는 새로운 아키텍처를 제안한다. 둘째, 채널 재정렬(channel re-ordering)과 1×1 컨볼루션을 사용하여 동일한 차원을 가진 특징 맵을 융합하는 새로운 모듈을 제안한다. 실험을 통해 RN-VID가 단일 프레임 탐지기와 비교해 높은 평균 정밀도(mAP)를 달성하면서도 추론 시 추가적인 비용이 거의 발생하지 않음을 입증하였다.