HyperAI

초록

원격 탐사 영상의 의미 분할은 원격 탐사 및 컴퓨터 비전 분야에서 핵심적인 작업으로, 이미지의 각 픽셀에 특정 레이블을 부여함으로써 전체 픽셀 단위의 분할 맵을 생성하는 것을 목표로 한다. 이를 통해 지구 표면에 대한 심층적인 분석과 이해가 가능해진다. 본 논문에서는 세 가지 서로 다른 백본 네트워크인 다중 축 시각 변환기(Multi-Axis Vision Transformer), ConvFormer, EfficientNet을 사용한 U-Net 모델의 앙상블을 활용하여 의미 분할 성능을 향상시키는 방법을 제안한다. 각 백본 네트워크가 학습한 다양한 표현을 효과적으로 활용하기 위해 기하 평균 기반의 앙상블 방법을 통해 최종 분할 맵을 생성한다. 제안된 방법의 성능은 원격 탐사 영상에서 의미 분할 작업에 널리 사용되는 LandCover.ai, LoveDA, INRIA, UAVid, ISPRS Potsdam 등 다양한 데이터셋을 대상으로 평가되었다. 실험 결과, 제안하는 방법이 최신 기술 수준의 성능을 달성함을 입증하였으며, 원격 탐사 영상 내에 내재된 의미 정보를 정확히 포착하는 데 있어 뛰어난 효과성과 강건성을 보였다.

벤치마크	방법론	지표
semantic-segmentation-on-isprs-potsdam	U-Net (ConvFormer-M36)	Mean IoU: 89.45
semantic-segmentation-on-landcover-ai	U-Net (ConvFormer-M36)	mIoU: 87.64
semantic-segmentation-on-loveda	U-Net (MaxViT-S)	Category mIoU: 56.16
semantic-segmentation-on-uavid	U-Net Ensemble	Mean IoU: 73.34
semantic-segmentation-on-uavid	U-Net (MaxViT-S)	Mean IoU: 71.88

벤치마크

방법론

지표

semantic-segmentation-on-isprs-potsdam

U-Net (ConvFormer-M36)

Mean IoU: 89.45

semantic-segmentation-on-landcover-ai

U-Net (ConvFormer-M36)

mIoU: 87.64

semantic-segmentation-on-loveda

U-Net (MaxViT-S)

Category mIoU: 56.16