17일 전
엔드투엔드 객체 탐지 기반 트랜스포머
Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko

초록
우리는 객체 탐지를 직접적인 세트 예측 문제로 간주하는 새로운 방법을 제안한다. 본 연구의 접근법은 탐지 파이프라인을 단순화하여, 객체에 대한 사전 지식을 명시적으로 포함하는 수작업으로 설계된 구성 요소(예: 비최대 억제 기법이나 앵커 생성)의 필요성을 효과적으로 제거한다. 새로운 프레임워크인 DEtection TRansformer(이하 DETR)의 핵심 요소는 이분 매칭을 통해 유일한 예측을 강제하는 세트 기반 전역 손실과 트랜스포머 인코더-디코더 아키텍처이다. 고정된 작은 크기의 학습된 객체 질의(queries)를 기반으로 DETR는 객체 간의 관계와 전역 이미지 맥락을 종합적으로 분석하여 병렬적으로 최종 예측 세트를 직접 출력한다. 이 새로운 모델은 개념적으로 간단하며, 다른 많은 현대적 탐지기들과 달리 전용 라이브러리가 필요하지 않다. DETR는 도전적인 COCO 객체 탐지 데이터셋에서 잘 정립되고 고도로 최적화된 Faster RCNN 베이스라인과 정확도 및 실행 시간 성능 면에서 동등한 성능을 보였다. 더불어 DETR는 통합적인 방식으로 패노픽 세그멘테이션을 간단히 확장할 수 있으며, 경쟁적인 기존 베이스라인들에 비해 상당히 뛰어난 성능을 입증하였다. 학습 코드와 사전 학습된 모델은 https://github.com/facebookresearch/detr에서 공개되어 있다.