17일 전

Transformer를 활용한 탐지를 위한 반복적 격자 기반 디코더

Zhe Chen, Jing Zhang, Dacheng Tao
Transformer를 활용한 탐지를 위한 반복적 격자 기반 디코더
초록

Transformer 기반 탐지기(DETR)는 점점 더 인기를 끌고 있지만, 전역 주목(attention) 모델링을 요구함에 따라 훈련을 최적화하고 만족스러운 탐지 성능을 달성하기 위해 매우 긴 훈련 기간이 필요하다. 기존 연구들이 주로 고급 특징 또는 임베딩 설계를 통해 훈련 문제를 해결하는 데 초점을 맞추고 있는 반면, 본 연구는 관심 영역(Region-of-Interest, RoI) 기반 탐지 정밀화가 DETR 방법의 훈련 난이도를 쉽게 완화할 수 있음을 지적한다. 이를 바탕으로 본 논문에서는 새로운 재귀적 순간(Recurrent Glimpse-based) 디코더인 REGO(Recurrent Glimpse-based Decoder)를 제안한다. 특히 REGO는 다단계 재귀 처리 구조를 활용하여 DETR의 주목이 점차 더 정확하게 전경 객체에 집중되도록 돕는다. 각 처리 단계에서는 이전 단계의 탐지 결과에 기반한 경계상자 영역을 확대하여 RoI에서 시각적 특징을 순간 특징(glimpse features)으로 추출하고, 이를 바탕으로 순간 기반 디코더를 도입하여 이전 단계의 주목 모델링 출력과 함께 정교화된 탐지 결과를 제공한다. 실질적으로 REGO는 주요 DETR 변형 모델에 간편하게 통합 가능하며, 기존의 완전한 엔드투엔드 훈련 및 추론 파이프라인을 유지할 수 있다. 특히, REGO를 적용한 Deformable DETR은 기존 DETR과 Deformable DETR이 각각 500 에포크와 50 에포크를 필요로 하는 성능을 달성하는 데 비해, 단 36 에포크만으로 MSCOCO 데이터셋에서 44.8 AP를 달성한다. 실험 결과는 REGO가 동일한 50 에포크 설정에서 다양한 DETR 탐지기의 성능을 최대 7%의 상대적 향상으로 지속적으로 향상시킴을 보여준다. 코드는 https://github.com/zhechen/Deformable-DETR-REGO 에서 공개된다.