17일 전
에어리얼포머: 항공 이미지 세그멘테이션을 위한 다중 해상도 트랜스포머
Kashu Yamazaki, Taisei Hanyu, Minh Tran, Adrian de Luis, Roy McCann, Haitao Liao, Chase Rainwater, Meredith Adkins, Jackson Cothren, Ngan Le

초록
공중 이미지 세그멘테이션은 상향식 시점의 의미론적 세그멘테이션으로, 전경-배경 분포의 극심한 불균형, 복잡한 배경, 내부 클래스 이질성, 외부 클래스 유사성, 그리고 미세한 객체 등 여러 도전 과제를 안고 있다. 이러한 문제들을 해결하기 위해, 우리는 Transformer의 장점을 계승하면서도 수축 경로에서는 Transformer를, 확장 경로에서는 경량화된 다중 확장 컨볼루션 신경망(Multi-Dilated Convolutional Neural Networks, MD-CNNs)을 통합한 AerialFormer을 제안한다. 본 연구에서 제안한 AerialFormer은 계층적 구조로 설계되었으며, Transformer 인코더가 다중 해상도 특징을 출력하고, MD-CNN 디코더가 이들 다중 해상도 정보를 집계함으로써 지역적 및 전역적 맥락을 동시에 고려하여 강력한 표현 능력과 고해상도 세그멘테이션을 가능하게 한다. AerialFormer은 iSAID, LoveDA, Potsdam 등 세 가지 대표적인 데이터셋에서 평가되었으며, 종합적인 실험 및 광범위한 아블레이션 연구를 통해 기존 최고 성능 모델들을 뛰어넘는 뛰어난 성능을 입증하였다. 본 연구의 소스 코드는 논문 수락 후 공개될 예정이다.