17일 전

FFAVOD: 비디오 객체 탐지를 위한 특징 융합 아키텍처

Hughes Perreault, Guillaume-Alexandre Bilodeau, Nicolas Saunier, Maguelonne Héritier
FFAVOD: 비디오 객체 탐지를 위한 특징 융합 아키텍처
초록

비디오의 연속 프레임 사이에는 상당한 중복성이 존재한다. 일반적인 객체 탐지기들은 단일 이미지에 대해 탐지 결과를 생성하지만, 이러한 중복성을 활용할 수 있는 능력이 부족하다. 한편, 스마트 교통 시스템, 고급 운전자 보조 시스템 및 비디오 감시와 같은 많은 객체 탐지 응용 분야는 비디오 데이터를 다룬다. 본 연구는 비디오 프레임 간의 유사성을 활용하여 보다 우수한 탐지 성능을 달성하는 것을 목표로 한다. 우리는 영상 객체 탐지를 위한 특징 병합 아키텍처(Fast Feature Fusion Architecture for Video Object Detection, FFAVOD)를 제안한다. 먼저, 인접한 프레임 간에 특징 맵을 공유할 수 있는 새로운 영상 객체 탐지 아키텍처를 제안한다. 또한, 특징 맵을 효과적으로 융합하여 개선하는 특징 병합 모듈을 제안한다. 제안된 아키텍처와 병합 모듈을 사용하면, 이동하는 도로 사용자 시퀀스를 포함하는 두 개의 객체 탐지 벤치마크에서 세 가지 기반 객체 탐지기의 성능이 향상됨을 보여준다. 더 나아가 성능을 추가로 향상시키기 위해 SpotNet 주의 모듈에 대한 개선 방안을 제안한다. 개선된 SpotNet 탐지기와 함께 본 연구의 아키텍처를 적용함으로써, UA-DETRAC 공개 벤치마크 및 UAVDT 데이터셋에서 최신 기술 수준(SOTA)의 성능을 달성하였다. 코드는 다음 링크에서 확인할 수 있다: https://github.com/hu64/FFAVOD.