TR-MISR: Transformer 기반 특징 융합을 통한 다중 이미지 초해상도 복원
다중이미지 초해상도 복원(Multiimage Super-Resolution, MISR)은 원격 탐사 분야에서 가장 유망한 방향 중 하나로, 위성 시장에서 필수적인 기술로 부상하고 있다. 위성으로 수집된 이미지 시퀀스는 종종 다양한 시점과 긴 시간 간격을 포함하고 있어, 여러 저해상도 이미지를 통합하여 세부 정보가 풍부한 고해상도 이미지를 생성하는 것은 여전히 도전적인 과제이다. 그러나 기존의 딥러닝 기반 MISR 방법들은 다수의 이미지를 효율적으로 활용하지 못하는 한계가 있으며, 시간적 상관관계가 약한 이미지 시퀀스에 대해서도 적응이 어려운 융합 모듈을 사용한다. 이러한 문제를 해결하기 위해, 본 연구에서는 새로운 엔드 투 엔드 프레임워크인 TR-MISR을 제안한다. 이 프레임워크는 잔차 블록 기반 인코더, 트랜스포머 기반 융합 모듈, 그리고 하위픽셀 컨볼루션 기반 디코더로 구성된다. 특히, 여러 특징 맵을 벡터 형태로 재정렬함으로써, 융합 모듈은 서로 다른 위성 이미지에서 동일한 영역에 대해 동시에 동적 주의를 부여할 수 있다. 더불어 TR-MISR은 세부 정보를 최대한 복원하기 위해 추가적인 학습 가능한 임베딩 벡터를 도입하여 이러한 벡터들을 융합한다. TR-MISR은 트랜스포머를 MISR 작업에 처음으로 성공적으로 적용한 사례로, 이미지 패치 간 공간적 관계를 무시함으로써 트랜스포머 학습의 난이도를 크게 감소시켰다. PROBA-V Kelvin 데이터셋을 대상으로 수행한 광범위한 실험 결과는 제안된 모델의 우수성을 입증하였으며, 저수준 시각 작업에서 트랜스포머의 효과적인 활용을 위한 새로운 방법을 제시한다.