11일 전
시각적 객체 탐지를 위한 통합 이동형 사전 훈련된 Transformer 인코더-디코더
Feng Liu, Xiaosong Zhang, Zhiliang Peng, Zonghao Guo, Fang Wan, Xiangyang Ji, Qixiang Ye

초록
현대의 객체 탐지기들은 대규모 데이터셋에서 사전 훈련된 백본 네트워크의 장점을 활용하고 있다. 그러나 백본 네트워크 외에 탐지기 헤드 및 특징 피라미드 네트워크(FPN)와 같은 다른 구성 요소들은 여전히 무작위 초기화 상태에서부터 훈련되기 때문에, 표현 모델의 잠재력을 충분히 발휘하는 데 제약이 있다. 본 연구에서는 사전 훈련된 트랜스포머 인코더-디코더를 탐지기 전체에 통합적으로 이전하는 방법(imTED)을 제안한다. 이를 통해 특징 추출 경로를 완전히 사전 훈련된 상태로 구성함으로써 탐지기의 일반화 능력을 극대화하고자 한다. imTED와 기준 탐지기 간의 핵심 차이점은 두 가지이다. 첫째, 특징 추출 경로에서 무작위 초기화된 FPN을 제거하고, 사전 훈련된 트랜스포머 디코더를 탐지기 헤드로 이전하는 것이다. 둘째, 다중 해상도 특징 조절기(MFM)를 정의하여 해상도 적응성을 향상시키는 것이다. 이러한 설계는 무작위 초기화된 파라미터를 크게 줄이는 동시에, 탐지기 훈련과 표현 학습을 의도적으로 통합한다. MS COCO 객체 탐지 데이터셋에 대한 실험 결과, imTED는 동종 기법 대비 일관되게 약 2.4 AP 향상을 달성한다. 복잡한 기법 없이도 imTED는 소수 샘플 객체 탐지의 최신 기술을 최대 7.6 AP 향상시킨다. 코드는 https://github.com/LiewFeng/imTED 에서 제공된다.