미니어처 객체 탐지를 위한 디노이징 FPN과 트랜스포머 R-CNN

컴퓨터 비전 분야에서의 주목할 만한 진전에도 불구하고, 미세한 객체의 정확한 탐지는 여전히 큰 도전 과제로 남아 있으며, 이는 이미지 데이터 내에서 이러한 객체에 할당되는 픽셀 표현이 극히 미미하기 때문이다. 이 문제는 도시 계획부터 환경 모니터링에 이르기까지 다양한 응용이 가능한 고정밀 미세 객체 탐지가 필수적인 지구과학 및 원격 탐사 분야에서 특히 뚜렷하게 나타난다. 본 논문에서는 미세 객체 탐지 성능을 향상시키기 위해, DeNoising FPN과 Trans R-CNN을 결합한 새로운 프레임워크인 DNTR(Denoising FPN with Transformer-based R-CNN)를 제안한다. DNTR는 간편한 플러그인 설계를 가진 DeNoising FPN(DN-FPN)과 효과적인 Transformer 기반 탐지기인 Trans R-CNN으로 구성된다. 특히, 다중 스케일 객체 탐지에 있어 특징 피라미드 네트워크(FPN)에서의 특징 융합은 매우 중요하다. 그러나 다양한 스케일 간 특징 간 정규화가 부재함으로써 융합 과정에서 노이즈가 포함된 특징이 생성될 수 있다. 이를 해결하기 위해, FPN의 상향 경로(top-down path)에서 각 수준의 특징 내 노이즈를 억제하기 위해 대조적 학습(contrastive learning)을 활용하는 DN-FPN 모듈을 제안한다. 두 번째로, 이중 단계 프레임워크 기반으로 기존의 오래된 R-CNN 탐지기를 새로운 Trans R-CNN 탐지기로 대체하여 자기 주의(self-attention) 메커니즘을 활용해 미세 객체의 표현력을 강화한다. 실험 결과, AI-TOD 데이터셋에서 APvt 기준으로 기존 베이스라인 대비 최소 17.4% 향상되었으며, VisDrone 데이터셋에서는 AP 기준으로 최소 9.6% 개선되는 것으로 확인되었다. 본 연구의 코드는 https://github.com/hoiliu-0801/DNTR에서 공개될 예정이다.