엔드투엔드 객체 탐지를 위한 밀집된 고유 쿼리

객체 탐지에서 일대일 레이블 할당 기법은 후처리 단계에서 비최대 억제(NMS)의 필요성을 성공적으로 제거하고, 전체 파이프라인을 엔드투엔드로 구현할 수 있게 했다. 그러나 이 기법은 기존에 널리 사용되는 희소 쿼리(sparse queries)는 높은 재현율(recall)을 보장하지 못하는 문제를 야기하며, 반면 밀도 높은 쿼리(dense queries)는 유사한 쿼리가 증가하고 최적화 과정에서 어려움을 겪게 된다. 희소 쿼리와 밀도 높은 쿼리 모두 문제를 안고 있으므로, 엔드투엔드 객체 탐지에서 기대되는 쿼리는 무엇일까? 본 논문은 그 해결책으로 밀도 높은 독특한 쿼리(Dense Distinct Queries, DDQ)를 제안한다. 구체적으로, 기존 탐지기와 마찬가지로 밀도 높은 쿼리를 초기화한 후, 일대일 할당에 적합한 독특한 쿼리들을 선택한다. DDQ는 기존 탐지기와 최신 엔드투엔드 탐지기의 장점을 융합하여 FCN, R-CNN, DETR 등 다양한 탐지기의 성능을 크게 향상시킨다. 특히 주목할 점은, ResNet-50 기반으로 12 에포크 내에 MS-COCO 데이터셋에서 52.1 AP를 달성한 DDQ-DETR가 동일한 설정에서 기존 모든 탐지기보다 우수한 성능을 보였다는 점이다. 또한 DDQ는 혼잡한 장면에서도 엔드투엔드 탐지기의 장점을 공유하며, CrowdHuman 데이터셋에서 93.8 AP를 기록했다. 우리는 DDQ가 연구자들이 전통적 방법과 엔드투엔드 탐지기 간의 보완성에 대해 고민하도록 유도하기를 기대한다. 소스 코드는 \url{https://github.com/jshilong/DDQ}에서 확인할 수 있다.