CBNet: 객체 탐지를 위한 복합 백본 네트워크 아키텍처

최근 고성능 객체 탐지기들은 백본 네트워크에 크게 의존하며, 이들의 발전은 더 효과적인 네트워크 구조를 탐색함으로써 일관된 성능 향상을 가져왔다. 본 논문에서는 기존의 오픈소스로 공개된 사전 학습된 백본을 활용하여 사전 학습-세부 조정(fine-tuning) 프레임워크 하에서 고성능 탐지기를 구축할 수 있는 새로운 유연한 백본 프레임워크인 CBNetV2를 제안한다. 특히 CBNetV2 아키텍처는 동일한 백본을 여러 개 그룹화하고 복합 연결(composite connections)을 통해 연결한다. 이를 통해 다수의 백본 네트워크로부터 고수준 및 저수준 특징을 통합하고, 점진적으로 수용 영역(receptive field)을 확장함으로써 객체 탐지 작업을 보다 효율적으로 수행한다. 또한, CBNet 기반 탐지기의 학습 성능을 향상시키기 위해 보조 감독(assistant supervision)을 도입한 개선된 학습 전략을 제안한다. 복합 백본에 대한 추가 사전 학습 없이도 CBNetV2는 다양한 백본(예: CNN 기반 vs. Transformer 기반)과 주류 탐지기의 대부분의 헤드 설계(단계형 vs. 이단계형, 앵커 기반 vs. 앵커 자유형)에 유연하게 적용 가능하다. 실험 결과는 네트워크의 깊이와 너비를 단순히 증가시키는 것보다 CBNetV2가 훨씬 더 효율적이고 효과적이며 자원 친화적인 고성능 백본 네트워크 구축 방식임을 강력하게 입증한다. 특히, 본 연구에서 제안한 Dual-Swin-L은 COCO test-dev에서 단일 모델 및 단일 스케일 테스트 프로토콜 하에 박스 AP 59.4%, 마스크 AP 51.6%를 달성하였으며, Swin-L이 기록한 최신 기준 성능(박스 AP 57.7%, 마스크 AP 50.2%)보다 유의미하게 우수하다. 또한 학습 스케줄은 6배 감소하였다. 다중 스케일 테스트를 적용했을 때는 추가 학습 데이터 없이도 현재까지의 최고 기록을 새로운 기록인 박스 AP 60.1%, 마스크 AP 52.3%로 경신했다. 코드는 https://github.com/VDIGPKU/CBNetV2 에서 공개되어 있다.