17일 전
PTSEFormer: 비디오 객체 탐지를 위한 점진적 시간-공간 강화 전이형 모델
Han Wang, Jun Tang, Xiaodong Liu, Shanyan Guan, Rong Xie, Li Song

초록
최근 몇 년 동안 영상 객체 탐지(Video Object Detection) 분야에서 컨텍스트 프레임을 활용하여 객체 탐지 성능을 향상시키는 추세가 나타났다. 기존의 방법들은 일반적으로 한 번의 연산으로 특징을 집계하여 특징을 강화하지만, 이러한 방법들은 보통 인접 프레임들로부터의 공간 정보를 누락하고 특징 집계가 부족한 문제를 겪는다. 이러한 문제를 해결하기 위해 우리는 시간 정보와 공간 정보를 점진적으로 도입하여 통합적인 특징 강화를 수행한다. 시간 정보는 타겟 프레임(즉, 탐지 대상이 되는 프레임)과 컨텍스트 프레임 간의 주의 메커니즘(attention mechanism)을 수행하는 시간 특징 집계 모델(Temporal Feature Aggregation Model, TFAM)을 통해 도입한다. 동시에 각 컨텍스트 프레임과 타겟 프레임 사이의 위치 전이 정보를 전달하기 위해 공간 전이 인지 모델(Spatial Transition Awareness Model, STAM)을 활용한다. 트랜스포머 기반 탐지기 DETR을 기반으로 한 본 연구의 PTSEFormer은 엔드투엔드(end-to-end) 방식을 따르며, 복잡한 후처리 절차를 피하면서 ImageNet VID 데이터셋에서 88.1%의 mAP를 달성하였다. 코드는 https://github.com/Hon-Wong/PTSEFormer 에서 공개되어 있다.