17일 전

에어리얼포머: 항공 이미지 세그멘테이션을 위한 다중 해상도 트랜스포머

Kashu Yamazaki, Taisei Hanyu, Minh Tran, Adrian de Luis, Roy McCann, Haitao Liao, Chase Rainwater, Meredith Adkins, Jackson Cothren, Ngan Le
에어리얼포머: 항공 이미지 세그멘테이션을 위한 다중 해상도 트랜스포머
초록

공중 이미지 세그멘테이션은 상향식 시점의 의미론적 세그멘테이션으로, 전경-배경 분포의 극심한 불균형, 복잡한 배경, 내부 클래스 이질성, 외부 클래스 유사성, 그리고 미세한 객체 등 여러 도전 과제를 안고 있다. 이러한 문제들을 해결하기 위해, 우리는 Transformer의 장점을 계승하면서도 수축 경로에서는 Transformer를, 확장 경로에서는 경량화된 다중 확장 컨볼루션 신경망(Multi-Dilated Convolutional Neural Networks, MD-CNNs)을 통합한 AerialFormer을 제안한다. 본 연구에서 제안한 AerialFormer은 계층적 구조로 설계되었으며, Transformer 인코더가 다중 해상도 특징을 출력하고, MD-CNN 디코더가 이들 다중 해상도 정보를 집계함으로써 지역적 및 전역적 맥락을 동시에 고려하여 강력한 표현 능력과 고해상도 세그멘테이션을 가능하게 한다. AerialFormer은 iSAID, LoveDA, Potsdam 등 세 가지 대표적인 데이터셋에서 평가되었으며, 종합적인 실험 및 광범위한 아블레이션 연구를 통해 기존 최고 성능 모델들을 뛰어넘는 뛰어난 성능을 입증하였다. 본 연구의 소스 코드는 논문 수락 후 공개될 예정이다.

에어리얼포머: 항공 이미지 세그멘테이션을 위한 다중 해상도 트랜스포머 | 최신 연구 논문 | HyperAI초신경