17일 전

시공간적 학습 가능한 제안을 통한 엔드투엔드 비디오 객체 탐지

Khurram Azeem Hashmi, Didier Stricker, Muhammamd Zeshan Afzal
시공간적 학습 가능한 제안을 통한 엔드투엔드 비디오 객체 탐지
초록

본 논문은 영상 객체 탐지에서 시간 정보를 활용하여 객체 제안을 생성하는 새로운 아이디어를 제안한다. 현대의 영상 기반 객체 탐지기에서 영역 기반(RPN)을 통해 단일 프레임에서 생성된 학습된 제안을 기반으로 특징 집계가 주로 이루어지며, 이는 NMS와 같은 추가적인 구성 요소를 도입하고 저품질 프레임에서 신뢰할 수 없는 제안을 생성하는 문제를 야기한다. 이러한 제약을 해결하기 위해, 우리는 시간 정보를 효과적으로 활용하는 새로운 영상 객체 탐지 파이프라인인 SparseVOD를 제안한다. 특히, Sparse R-CNN의 동적 헤드에 두 가지 모듈을 도입한다. 첫째, 시간적 RoI Align 연산을 기반으로 한 시간적 특징 추출 모듈을 도입하여 RoI 제안 특징을 추출한다. 둘째, 시퀀스 수준의 의미적 특징 집계를 영감으로 받아, 탐지 전에 객체 특징 표현을 강화하기 위해 주의(attention)-가이드된 의미적 제안 특징 집계 모듈을 도입한다. 제안된 SparseVOD는 복잡한 후처리 방법의 부담을 효과적으로 완화하고, 전체 파이프라인을 엔드 투 엔드로 훈련 가능한 구조로 만든다. 광범위한 실험 결과를 통해 제안한 방법이 단일 프레임 기반 Sparse R-CNN에 비해 mAP에서 8~9% 향상됨을 확인하였다. 또한, ResNet-50 기반으로 ImageNet VID 데이터셋에서 기존 최고 성능을 기록하는 80.3%의 mAP를 달성하며, IoU가 0.5 이상인 증가하는 IoU 임계치에서 기존의 제안 기반 방법들에 비해 뚜렷한 성능 우위를 보였다.