TOOD: 작업 정렬형 단계별 객체 탐지

일단계 객체 탐지(One-stage object detection)는 일반적으로 객체 분류와 위치 추정이라는 두 가지 하위 작업을 최적화하여 구현되며, 이는 두 개의 병렬 브랜치를 갖는 헤드를 사용하는 방식이다. 그러나 이러한 구조는 두 작업 간에 일정 수준의 공간적 비일치(spacial misalignment)를 초래할 수 있다. 본 연구에서는 학습 기반 방식으로 두 작업을 명시적으로 정렬하는 Task-aligned One-stage Object Detection(TOOD)를 제안한다. 먼저, 작업 간 상호작용 특징과 작업별 특징 사이의 균형을 개선하고, 작업 정렬 예측기(task-aligned predictor)를 통해 정렬을 더 유연하게 학습할 수 있는 새로운 Task-aligned Head(T-Head)를 설계하였다. 또한, 설계된 샘플 할당 방식과 작업 정렬 손실(task-aligned loss)을 통해 학습 과정에서 두 작업의 최적 어노테이션(anchors)을 명시적으로 가까이 끌어오거나 심지어 통합하는 Task Alignment Learning(TAL)을 제안하였다. MS-COCO 데이터셋에서 실시한 광범위한 실험 결과, TOOD는 단일 모델 및 단일 스케일 테스트에서 51.1 AP를 달성하였으며, 이는 최근의 일단계 탐지기인 ATSS(47.7 AP), GFL(48.2 AP), PAA(49.0 AP)보다 큰 성능 우위를 보였다. 더불어 파라미터 수와 FLOPs가 적은 경량 구조를 유지하고 있다. 정성적 결과 또한 TOOD가 객체 분류와 위치 추정 작업 간의 정렬을 보다 효과적으로 수행함을 입증하였다. 코드는 https://github.com/fcjian/TOOD 에서 공개되어 있다.