SuperYOLO: 다중모달 원격 감지 이미지에서 초해상도 보조 객체 탐지

원격 감지 이미지(RSI)에서 수십 픽셀에 불과한 다중 규모 소형 객체를 정확하고 실시간으로 탐지하는 것은 여전히 도전 과제이다. 기존의 대부분의 기법은 배경과 분리된 객체에 대한 강력한 특징 표현을 학습하기 위해 복잡한 심층 신경망을 설계하는 데 초점을 맞추고 있으며, 이로 인해 계산 부담이 크게 증가하는 문제가 있다. 본 논문에서는 이러한 문제를 해결하기 위해, 보조적 초해상도(SR) 학습을 활용하고 탐지 정확도와 계산 비용을 동시에 고려하여 다중 규모 객체에 대해 고해상도(HR) 탐지가 가능한, 정확하면서도 빠른 RSI용 객체 탐지 방법인 SuperYOLO를 제안한다. 먼저, 다양한 데이터로부터 보조 정보를 추출하여 RSI 내 소형 객체 탐지 성능을 향상시키기 위해 대칭적이고 컴팩트한 다중 모달 융합(MF) 구조를 도입한다. 또한, 저해상도(LR) 입력을 기반으로 소형 객체를 광범위한 배경과 구분할 수 있는 HR 특징 표현을 학습할 수 있는 간단하고 유연한 SR 브랜치를 설계하였다. 이는 탐지 정확도를 추가로 향상시킨다. 더불어, 추론 단계에서는 추가적인 계산 부담을 방지하기 위해 SR 브랜치를 제거함으로써, LR 입력에 기반한 네트워크의 계산량을 감소시켰다. 실험 결과, 일반적으로 사용되는 VEDAI RSI 데이터셋에서 SuperYOLO는 mAP50 기준 75.09%의 정확도를 달성하였으며, YOLOv5l, YOLOv5x 및 RS 전용 YOLOrs와 같은 최첨단 대형 모델보다 10% 이상 높은 성능을 보였다. 또한 SuperYOLO의 파라미터 크기와 GFLOPs는 YOLOv5x 대비 각각 약 18배, 3.8배 작다. 제안된 모델은 최첨단 기법들과 비교하여 뛰어난 정확도와 속도의 균형을 보여주며, 실용적인 적용 가능성을 갖춘다. 코드는 https://github.com/icey-zhang/SuperYOLO에서 공개될 예정이다.