18일 전
단기 앵커 연결과 장기 자기 지도형 어텐션을 통한 비디오 객체 탐지
{Manuel Mucientes, Víctor M Brea, Daniel Cores}
초록
우리는 영상에서 제공되는 공간-시간 정보를 효과적으로 활용하여 객체 탐지 정확도를 향상시킬 수 있는 새로운 네트워크 아키텍처를 제안한다. 먼저, 인접 프레임에서 동일한 앵커 박스에서 유래한 제안 박스들 간의 박스 특징을 연결하고 집계한다. 그 후, 단기적으로 강화된 박스 특징을 집계하여 장기적인 공간-시간 정보를 활용하는 새로운 어텐션 모듈을 설계하였다. 이 모듈은 영상 객체 탐지 분야에서 처음으로 장기적인 기하학적 특징을 활용한다. 마지막으로, 참조 프레임의 공간 정보와 단기 및 장기 시간적 맥락을 고려한 집계된 정보를 동시에 입력받는 공간-시간 이중 헤드를 적용한다. 제안한 방법은 특성상이 매우 다른 다섯 개의 영상 객체 탐지 데이터셋에서 검증되었으며, 다양한 시나리오에서의 강건성을 입증하였다. 비모수적 통계적 검정 결과, 기존 최고 성능 기법들을 능가함을 확인하였다. 코드는 https://github.com/daniel-cores/SLTnet 에서 공개되어 있다.