SCAResNet: 전송 및 배전 탑에서 소형 객체 검출을 최적화한 ResNet 변형 모델

전통적인 딥 러닝 기반 객체 검출 네트워크는 데이터 전처리 단계에서 이미지를 리사이징하여 피처 맵에서 일정한 크기와 스케일을 달성합니다. 리사이징은 모델의 전파를 용이하게 하고 완전 연결 분류를 가능하게 하기 위해 수행됩니다. 그러나 이 과정은 불가피하게 객체 변형과 이미지 내 유용한 정보 손실을 초래합니다. 이 단점은 선형 형태와 적은 픽셀 수를 가진 배전탑과 같은 작은 객체에 대해 특히 두드러집니다. 이러한 문제를 해결하기 위해, 우리는 리사이징 작업을 포기하고 대신 위치 인코딩 다중 헤드 크리스-크로스 어텐션(Positional-Encoding Multi-head Criss-Cross Attention)을 도입합니다. 이를 통해 모델이 문맥 정보를 포착하고 여러 표현 부분 공간에서 학습할 수 있어, 배전탑의 의미론적 정보를 효과적으로 풍부하게 만들 수 있습니다. 또한, 우리는 스페이셜 피라미드 풀링(Spatial Pyramid Pooling)을 개선하여 세 개의 풀링된 피처 맵을 새로운 통합된 하나로 재구성하면서 동시에 계산 부담을 줄입니다. 이 접근 방식은 다양한 크기와 스케일의 이미지가 일정한 차원의 피처 맵을 생성하도록 하며, 피처 맵 전파에 활용될 수 있습니다.우리의 SCAResNet은 이러한 개선 사항들을 백본 네트워크인 ResNet에 통합하였습니다. 우리는 듀크대학교(Duke University)에서 제공하는 전력 송배전 인프라 이미지 데이터셋(Electric Transmission and Distribution Infrastructure Imagery dataset)을 사용하여 SCAResNet을 평가하였습니다. 추가적인 트릭 없이 가우시안 수용 필드 기반 라벨 할당(Gaussian Receptive Field based Label Assignment)을 베이스라인으로 하는 다양한 객체 검출 모델들을 사용했습니다. SCAResNet을 베이스라인 모델에 통합했을 때, mAPs(mAP)에서 2.1%의 성능 향상을 달성하였습니다. 이는 우리의 SCAResNet이 송배전탑 검출에서 우수한 성능을 보이며, 작은 객체 검출에서도 그 가치를 입증함을 시사합니다. 소스 코드는 https://github.com/LisavilaLee/SCAResNet_mmdet 에서 확인할 수 있습니다.