Swin2-MoSE: 원격 감지용 새로운 단일 이미지 초해상도 모델

현재 광학 및 센서 기술의 제한과 업데이트 비용의 증가로 인해 위성의 스펙트랄 및 공간 해상도가 항상 원하는 요구사항을 충족하지 못할 수 있습니다. 이러한 이유로, 원격 감지 단일 이미지 초고해상도(RS-SISR) 기술이 큰 관심을 받고 있습니다. 본 논문에서는 Swin2SR의 향상된 버전인 Swin2-MoSE 모델을 제안합니다. 우리의 모델은 모든 트랜스포머 블록 내부의 피드 포워드를 대체하기 위해 향상된 전문가 혼합(Mixture-of-Experts, MoE)인 MoE-SM을 도입합니다. MoE-SM은 개별 전문가들의 출력을 병합하는 새로운 계층인 Smart-Merger와 함께 설계되었으며, 전문가들 사이에서 작업을 분할하는 새로운 방법을 제시하여 일반적으로 사용되는 토큰별(per-token) 전략 대신 예제별(per-example) 전략을 정의합니다.또한, 위치 인코딩들이 서로 어떻게 상호작용하는지를 분석하여 채널별 바이어스(per-channel bias)와 헤드별 바이어스(per-head bias)가 긍정적으로 협력할 수 있음을 입증하였습니다. 마지막으로, 일반적인 평균 제곱 오차(MSE) 손실의 한계를 피하기 위해 정규화된 상관관계(Normalized-Cross-Correlation, NCC) 손실과 구조적 유사성 지수 측정(Structural Similarity Index Measure, SSIM) 손실의 조합을 사용하는 것을 제안합니다. 실험 결과는 Swin2-MoSE가 2배, 3배, 4배 해상도 확대(Sen2Venus 및 OLI2MSI 데이터셋) 작업에서 Swin 기반 모델보다 최대 0.377 - 0.958 dB (PSNR) 높은 성능을 보임을 입증하였습니다. 또한 이 모델은 최신 연구(SOTA) 모델들보다 크게 우월하며, 특히 복잡한 작업에 있어 경쟁력 있고 뛰어난 잠재력을 보여주었습니다.또한 계산 비용에 대한 분석도 수행되었습니다. 마지막으로, Swin2-MoSE의 효과성을 시맨틱 세그멘테이션 작업(SeasoNet 데이터셋)에 적용함으로써 보여주었습니다. 코드와 사전 학습 모델은 https://github.com/IMPLabUniPr/swin2-mose/tree/official_code 에서 제공됩니다.