DETRs, 실시간 객체 탐지에서 YOLO보다 뛰어난 성능 발휘

YOLO 시리즈는 속도와 정확도 사이의 합리적인 균형을 제공함으로써 실시간 객체 탐지 분야에서 가장 인기 있는 프레임워크로 자리 잡았다. 그러나 우리는 YOLO 모델의 속도와 정확도가 NMS(NMS: Non-Maximum Suppression)에 의해 부정적으로 영향을 받고 있음을 관찰하였다. 최근에는 NMS를 제거할 수 있는 대안으로 엔드투엔드 기반의 트랜스포머 기반 탐지기(DETRs)가 등장하였다. 그러나 높은 계산 비용으로 인해 실용성에 제약이 있으며, NMS 제거라는 장점을 충분히 활용하지 못하고 있다. 본 논문에서는 위의 딜레마를 해결하는 최초의 실시간 엔드투엔드 객체 탐지기인 Real-Time DEtection TRansformer(이하 RT-DETR)를 제안한다. RT-DETR는 고도화된 DETR 기술을 기반으로 두 단계에 걸쳐 구축된다. 첫 번째 단계에서는 정확도를 유지하면서 속도를 향상시키는 데 집중하고, 두 번째 단계에서는 속도를 유지하면서 정확도를 개선하는 방향으로 설계하였다. 구체적으로, 내부 스케일 간 상호작용과 크로스 스케일 병합을 분리함으로써 다중 스케일 특징을 효율적으로 처리할 수 있는 하이브리드 인코더를 설계하였다. 이를 통해 속도 향상을 달성하였다. 또한, 디코더에 고품질의 초기 쿼리를 제공하기 위해 불확실도 최소화 쿼리 선택 기법을 제안하여 정확도를 향상시켰다. 더불어, 디코더 레이어 수를 조절함으로써 유연한 속도 조정이 가능하며, 재학습 없이 다양한 환경에 적응할 수 있다. 제안한 RT-DETR-R50 / R101은 COCO 데이터셋에서 각각 53.1% / 54.3%의 AP를 달성하고, T4 GPU 기준으로 108 / 74 FPS의 처리 속도를 기록하여 이전에 등장한 최고 성능의 YOLO 모델들보다 속도와 정확도 모두에서 우수한 성능을 보였다. 또한, 더 가벼운 YOLO 모델들(S 및 M 모델)보다 우수한 성능을 보이는 확장형 RT-DETR 모델도 개발하였다. 특히, RT-DETR-R50는 DINO-R50 대비 정확도에서 2.2% 높은 AP를 기록하고, 속도에서는 약 21배 빠른 FPS를 달성하였다. Objects365로 사전 학습한 후에는 RT-DETR-R50 / R101이 각각 55.3% / 56.2%의 AP를 달성하였다. 프로젝트 페이지: https://zhao-yian.github.io/RTDETR