2달 전
깊은 다중 모달 융합을 이용한 원격 감지 지구 관측 데이터의 의미 분할
Ivica Dimitrovski; Vlatko Spasev; Ivan Kitanovski

초록
원격 감지 영상의 정확한 의미 분할은 지표 피복 매핑, 도시 계획, 환경 모니터링 등 다양한 지구 관측 응용 분야에서 중요합니다. 그러나 개별 데이터 소스는 이 작업에 대한 제약을 자주 제시합니다. 매우 고해상도(VHR) 항공 영상은 풍부한 공간 세부 정보를 제공하지만, 지표 피복 변화에 대한 시간적 정보를 포착할 수 없습니다. 반면에, 위성 영상 시계열(SITS)은 식생의 계절적 변동과 같은 시간 동역학을 포착하지만, 공간 해상도가 제한되어 미세한 객체를 구분하기 어렵습니다. 본 논문에서는 이러한 VHR 항공 영상과 SITS의 보완적인 강점을 활용하는 후기 융합 딥러닝 모델(LF-DLM)을 제안합니다. 제안된 모델은 두 개의 독립적인 딥러닝 브랜치로 구성됩니다. 하나의 브랜치는 UNetFormer와 다축 비전 트랜스포머(MaxViT) 백본을 사용하여 항공 영상에서 상세한 질감을 통합하고, 다른 브랜치는 U-Net with Temporal Attention Encoder(U-TAE)를 사용하여 Sentinel-2 위성 영상 시계열에서 복잡한 시공간 동역학을 포착합니다. 이 접근 방식은 다소스 출처 광학 영상을 사용한 지표 피복 분할 대규모 벤치마크인 FLAIR 데이터셋에서 최고 수준의 결과를 도출하였습니다. 연구 결과는 원격 감지 응용 분야에서 의미 분할의 정확성과 견고성을 향상시키기 위해 다중 모드 융합의 중요성을 강조하고 있습니다.