HyperAI초신경

ICML 2025 | 뮌헨 공과대학교와 기타 연구진은 SD3를 기반으로 현재 가장 큰 원격 감지 데이터 세트를 구축하기 위한 위성 이미지 생성 방법을 개발했습니다.

特色图像

위성 영상은 위성 원격 탐사 기술을 통해 얻은 지구 표면 영상입니다. 위성 영상은 지구 정보를 디지털화하여 대규모 탐지, 동적 추적 및 데이터 지원을 위한 "우주적 관점"을 구축합니다. 사람들의 일상생활에서 거시적 환경 거버넌스와 미시적 도시 생활은 불가분의 관계에 있습니다. 예를 들어, 임업 모니터링 분야에서 위성 영상을 통해 산림의 분포 범위를 신속하게 파악하고, 다양한 산림 수종의 피복률을 계산하며, 벌목, 조림, 해충 및 질병 등으로 인한 산림 피복 변화를 감지할 수 있습니다.

하지만,위성 모니터링은 여러 요인의 영향을 쉽게 받기 때문에 성능과 응용 효과가 크게 떨어집니다.운량 간섭은 특히 심각합니다. 예를 들어, 구름이 자주 끼는 지역에서는 위성 관측이 며칠 또는 몇 주 동안 중단될 수 있습니다. 이는 위성의 실시간 동적 관측을 방해할 뿐만 아니라, 예측 정확도 향상을 위해 위성 영상과 기후 데이터를 결합해야 하는 새로운 요구 사항을 제기합니다. 인공지능 기술과 머신러닝 알고리즘의 급속한 발전은 이러한 요구 사항을 해결할 수 있는 기회를 제공했지만, 현재 대부분의 방법은 특정 작업이나 특정 지역을 위해 설계되어 있어 전 세계적 적용에 적합한 보편성이 부족합니다.

위의 문제를 해결하려면,독일 뮌헨 공과대학교와 스위스 취리히대학교의 팀은 Stable Diffusion 3(SD3)을 사용하여 지리적 기후 신호에 따라 위성 이미지를 생성하는 새로운 방법을 제안하면서, 지금까지 가장 크고 포괄적인 원격 감지 데이터 세트인 EcoMapper를 생성했습니다.이 데이터셋은 센티넬-2 위성으로부터 전 세계 104,424개 지점의 290만 개 이상의 RGB 위성 이미지 데이터를 수집하여 15가지 토지 피복 유형과 해당 기후 기록을 포괄합니다. 이는 정밀하게 조정된 SD3 모델을 사용하는 두 가지 위성 이미지 생성 방법의 기반을 마련합니다. 제안된 방법은 합성 이미지 생성과 기후 및 토지 피복 데이터를 결합하여 원격 탐사 분야의 생성 모델링 기술 개발을 촉진하고, 지속적인 운량으로 인해 영향을 받는 지역의 관측 공백을 메우며, 지구 기후 적응 및 지공간 분석을 위한 새로운 도구를 제공합니다.

"EcoMapper: 기후 인식 위성 영상을 위한 생성적 모델링"이라는 제목의 연구 결과가 ICML 2025에 선정되었습니다.

연구 하이라이트:
* 현재까지 가장 크고 포괄적인 원격 감지 데이터 세트인 EcoMapper를 구축했습니다. 여기에는 290만 개 이상의 위성 이미지가 포함되어 있습니다. 

기후와 토지 피복 세부 정보가 포함된 텍스트 신호를 사용하여 특정 지역의 사실적인 합성 이미지를 생성하기 위해 미세 조정된 Stable Diffusion 3을 기반으로 텍스트-이미지 생성 모델을 개발했습니다.

* ControlNet을 사용하여 기후 데이터를 매핑하거나 시계열을 생성하여 풍경 진화를 시뮬레이션하기 위한 다중 조건(텍스트 + 이미지) 모델 프레임워크를 개발했습니다.

서류 주소:

https://go.hyper.ai/VFRWu

데이터세트 다운로드 주소:

https://go.hyper.ai/uhOIw

더 많은 AI 프런티어 논문:

https://go.hyper.ai/owxf6

데이터 세트: 현재까지 가장 크고 포괄적인 원격 감지 데이터 세트

EcoMapper는 지금까지 가장 크고 포괄적인 원격 감지 데이터 세트입니다.이 데이터 세트는 전 세계 104,424개 지리적 위치에서 샘플링된 기후 메타데이터가 포함된 2,904,000개의 위성 이미지로 구성되어 있습니다.이 보고서는 아래 그림과 같이 15가지의 다양한 토지 피복 유형을 다룹니다.

데이터 세트 예제
각 배치별 연간 관측 데이터 볼륨 및 총 이미지 볼륨 (참고: 토지 피복 분포에 맞춰 일부 위치가 누락됨)

안에,훈련 세트에는 98,930개의 지리적 지점이 포함되어 있으며, 각 지점에 대한 관찰 기간은 24개월입니다.연구진은 2년 동안 구름 양이 가장 적은 날을 기준으로 각 위치별로 매달 한 번씩 관측 자료를 선정하여, 위치당 24장의 이미지 시퀀스를 만들었습니다. 2년간의 관측 기간은 2017년부터 2022년까지 무작위로 분포되었습니다.

테스트 세트에는 5,494개의 지리적 지점이 포함되어 있습니다.각 지점에 대한 관찰 기간은 2017년부터 2024년까지 96개월(8년)이며, 모니터링도 매월 실시합니다.

공간적 관점에서 볼 때, 각 관측치의 공간적 적용 범위는 약 26.21제곱킬로미터입니다.전체 데이터 세트는 약 2,704,000제곱킬로미터를 포괄하며, 이는 지구 총 육지 면적의 약 2.05%에 해당합니다.이러한 데이터는 평가에 있어 충분한 공간적, 시간적 독립성을 보장하여 다양한 지역과 보이지 않는 기후 조건에 대한 모델의 일반화에 대한 견고한 평가를 가능하게 합니다.

또한, 각 샘플링 지점에는 지리적 위치(위도 및 경도), 관측일(연도 및 월), 토지 피복 유형 및 운량, 그리고 NASA Power에서 제공하는 월 평균 기온, 일사량 및 총 강수량 등의 메타데이터가 풍부하게 제공됩니다. 이러한 데이터는 농업, 임업, 토지 피복 및 생물다양성에 대한 이점을 보여줍니다.

모델 아키텍처: 텍스트-이미지 생성 모델 및 다중 조건 생성 모델

이 연구의 목적은 지리적, 기후적 메타데이터를 바탕으로 위성 이미지를 합성하여 환경 조건에 대한 현실적인 예측을 가능하게 하는 것입니다.연구자들은 텍스트-이미지 생성과 다중 조건 이미지 생성이라는 두 가지 핵심 작업을 수행해야 했습니다.

연구자들은 두 가지 생성 모델이 기후 메타데이터를 위성 이미지 합성에 통합하는 능력을 평가했습니다.

첫 번째는 Stable Diffusion 3입니다.이 모델은 CLIP 및 T5 텍스트 인코더를 통합하여 유연한 프롬프트 조건 설정을 지원하는 다중 모드 잠재 확산 모델입니다. 연구진은 수집된 데이터 세트를 사용하여 Stable Diffusion 3를 미세 조정하여 지리, 기후 및 시간 메타데이터를 포함하는 사실적인 위성 영상을 기반으로 할 수 있도록 했습니다.

두 번째는 DiffusionSat입니다.이 모델은 위성 영상 전용 기본 모델로, Stable Diffusion 2를 기반으로 하며 수치적 조건화를 위한 전용 메타데이터 임베딩 계층을 통해 확장되었습니다. 일반적인 확산 모델과 달리, 이 모델은 원격 탐사 작업에 특화되어 주요 공간적 및 시간적 속성을 인코딩할 수 있으며, 초고해상도, 영상 복원 및 시간 예측 기능을 갖추고 있습니다.

텍스트-이미지 생성 작업의 경우, 연구진은 미세 조정된 모델과 미세 조정되지 않은 모델을 포함하여 Stable Diffusion 3과 DiffusionSat의 다양한 구성을 비교하고 다양한 해상도에서 실험을 수행했습니다.

* 기준 모델: 두 모델 모두 미세 조정 없이 512 x 512 해상도에서 평가되었습니다. 

* 미세 조정 모델(-FT): 두 모델 모두 512 x 512 해상도의 기후 메타데이터를 사용하여 미세 조정한 후 평가되었습니다.

* 고해상도 SD3 모델: SD3는 1024 x 1024 해상도의 기후 메타데이터를 사용하여 미세 조정 및 테스트되었으며 SD3-FT-HR이라는 라벨이 지정되었습니다.

다중 조건 이미지 생성 작업의 경우연구진은 다중 조건 이미지 생성 작업을 수행하기 위해 LoRA(저랭크 적응) 기술로 강화된 미세 조정된 Stable Diffusion 3 모델을 사용하기로 결정했습니다.이 모델은 고품질의 맥락적으로 관련성 있는 이미지를 생성하기 위한 기반으로 512 x 512 해상도에서 학습되었습니다. 본 연구에서는 ControlNet 기술을 사용하여 이중 조건부 메커니즘을 구축했습니다.
* ControlNet은 명시적 공간 제어를 생성 프로세스에 통합하여 확산 모델을 향상시킵니다. 이 설계는 제어 블록이 메인 블록에 미치는 초기 영향을 최소화하여 스킵 링크처럼 작동하도록 합니다.

* 제어 신호로서의 위성 이미지:지난 몇 달 동안 촬영된 위성 이미지는 생성된 이미지의 공간 구조를 유지하는 제어 신호 역할을 하며, 지형, 도시 배치 및 기타 지리적 특징이 변하지 않도록 보장합니다. 이를 통해 모델은 시간 경과에 따른 변화를 반영하여 현실 세계의 환경 변화를 반영할 수 있습니다. 

*  기후 팁:텍스트 조건화 메커니즘의 도움으로 위성 이미지를 생성하기 위한 기후와 대기 조건을 지정합니다.

이 두 가지 조정 요소를 결합함으로써, 본 연구는 공간적 일관성을 유지하면서 기후 변화를 반영하는 사실적인 위성 이미지를 생성할 수 있도록 합니다. 이 접근법은 또한 변화하는 기후 조건에서 지형 변화를 시뮬레이션할 수 있는 시계열 생성을 지원합니다. 아래 그림과 같습니다.


Stable Diffusion 3 및 ControlNet 프레임워크가 통합되어 다중 조건 위성 이미지 생성이 가능합니다.

신속한 구조 측면에서 위성 이미지를 효과적으로 생성하기 위해서는연구자들은 위성 이미지 생성을 안내하기 위해 공간 프롬프트와 기후 프롬프트라는 두 가지 유형의 프롬프트를 설계했습니다.전자는 토지 피복 유형, 위치, 날짜, 운량 등의 정보를 포함한 기본 메타데이터를 인코딩하여 생성된 이미지가 지리적 및 시간적 맥락과 일관성을 유지하도록 하는 데 사용됩니다. 후자는 공간적 단서를 기반으로 월별 기후 변수(기온, 강수량, 일사량)를 통합하여 이미지 생성을 위한 더욱 풍부한 환경 조건 정보를 제공합니다. 두 단서 모두 Stable Diffusion 3의 텍스트 인코더를 사용하며, 공간 정보는 CLIP으로, 기후 데이터는 T5 인코더로 처리합니다.

실험 결과: 발전 성능은 기준 모델을 능가하지만 여전히 개선의 여지가 있습니다.

연구진은 다차원 실험 시스템을 설계하고, 다양한 수평 및 수직 비교와 실험을 통해 기후 인식 위성 이미지를 생성하는 설계된 생성 모델의 성능을 검증했습니다.

먼저, 연구자들은 5가지 확립된 지표를 확인했습니다.FID(Fréchet Inception Distance), LPIPS(Learned Perceptual Image Patch Similarity), SSIM(Structural Similarity Index), PSNR(Peak Signal-to-Noise Ratio), 그리고 CLIP Score를 포함합니다. 그중 FID와 LPIPS는 이미지 분포 유사도와 지각 차이를 평가하고, SSIM과 PSNR은 구조적 일관성과 재구성 품질을 측정하며, CLIP Score는 텍스트-이미지 정렬을 평가합니다.

텍스트-이미지 생성 측면에서 연구진은 5,500개 지리적 지점에서 Stable Diffusion 3 및 DiffusionSat과 미세 조정된 버전(SD3-FT 및 DiffusionSat-FT)과 SD3-FT-HR의 성능을 비교하여 설계된 모델의 효과를 검증했습니다.

아래 그림과 같습니다. 기준 모델인 SD3와 DiffusionSat의 평가 점수가 가장 낮습니다.그러나 후자는 전자보다 성능이 훨씬 더 뛰어나며, 이는 원격 감지 사전 학습의 장점을 보여줍니다. 또한 모든 미세 조정 모델의 지표가 크게 개선되었습니다.SD3-FT는 CLIP, SSIM 및 PSNR에서 더 나은 성능을 보이는 반면, DiffusionSat-FT는 FID 및 LPIPS에서 더 나은 성능을 보입니다. SD3-FT-HR의 FID는 49.48로 가장 낮습니다(FID 값이 낮을수록 진위성이 높음을 나타냄). 이는 생성된 이미지의 세부 정보가 더 세밀하다는 것을 의미합니다.

텍스트-이미지 생성 모델의 양적 비교

정성적 결과 분석 결과, 설계된 모델은 농경지와 초원의 규칙적인 질감과 산악 지역의 지형 특성을 포착할 수 있으며, 특히 SD3-FT-HR은 식생 밀도 변화와 고해상도 세부 정보에서 더 나은 성능을 보였습니다.

기후 민감도 분석에서는 아래 그림과 같이,모델에 의해 생성된 식생 밀도는 기후 변화와 상당한 상관관계가 있습니다.본 연구는 극한 기상 조건을 보이는 표본을 대상으로 SD3-FT 모델에 대한 정량적 스트레스 테스트를 수행했습니다. 그 결과, 고온 및 고방사능 조건에서 모델로 생성된 영상의 FID(고방사능 FID)가 더 낮았고(예: 고방사능 FID는 107.34), 식생이 더 뚜렷하게 나타났습니다. 반면 저온 및 저방사능 조건에서는 그 반대의 현상이 나타났으며, 시뮬레이션 효과가 다소 저하되었습니다.


극한 기후 조건 하의 다양한 지역에 대해 SD3-FT가 생성한 위성 이미지
극한 기상 조건에서의 SD3-FT 성능

다중 조건 이미지 생성 작업에서 ControlNet과 결합된 다중 조건 생성은 모든 지표에서 텍스트-이미지 모델보다 우수한 성과를 보였습니다.예를 들어, SD3 ControlNet의 FID는 48.20입니다. 또한, 생성된 이미지와 실시간 이미지는 주요 지리적 특징을 유지하면서도 특정 기후 변화를 반영하여 강력한 공간적 정렬을 보여줍니다. 다음 그림과 같습니다.

SD3 ControlNet 모델 사양
다양한 계절 변화에 따른 다중 조건 이미지 생성에서 라이브 이미지, 생성된 이미지 및 조건 이미지 비교

견고성 테스트에서 토지 피복 유형은 모델 생성의 안정성에 더 큰 영향을 미칩니다.초원이나 사바나와 같은 일반적인 유형은 높은 생성 안정성과 낮은 FID를 보입니다. 습지나 도시와 같은 복잡하거나 희귀한 유형은 FID가 더 높은데, 예를 들어 도시의 경우 284.65입니다. 이는 훈련 데이터가 부족하기 때문입니다. 또한, 2017년부터 2024년까지의 테스트 데이터 세트에서 모델의 성능은 안정적이며, 2023년부터 2024년까지의 데이터 세트에서도 성능 저하가 나타나지 않았습니다. 이는 설계된 모델이 보이지 않는 시공간적 시나리오에 대한 높은 적응성을 여전히 가지고 있음을 보여줍니다.

요약하자면, EcoMapper는 기후 변수에 기반한 위성 영상을 시뮬레이션하는 생성적 프레임워크를 도입하여 기상 및 장기 기후 변화에 대한 경관의 반응을 모델링하는 것을 목표로 합니다. 이를 통해 기후 변화 영향 시각화, 시나리오 탐색, 그리고 작물 수확량 예측, 토지 이용 모니터링, 또는 구름 낀 지역의 이미지 채우기와 같은 위성 및 기후 데이터를 통합하는 하류 모델 개선에 새로운 기회를 제공합니다.

머신 러닝 알고리즘은 위성 이미지 생성을 위한 새로운 패러다임을 열어줍니다.

위성 이미지 생성에 생성 모델을 적용하는 것은 딥러닝 기술을 통해 획기적인 발전을 이루고 있습니다. 딥러닝 기술은 신경망의 딥러닝 성능과 방대한 위성 데이터를 결합하여 사실적인 고해상도 멀티모달 원격 탐사 이미지를 생성합니다. 위에서 언급한 내용 외에도, 이 분야 연구 커뮤니티는 오랫동안 "릴레이 경쟁"을 벌여 왔으며, 끊임없는 방법론 및 접근법 혁신을 통해 위성 이미지 분야 연구의 탄탄한 기반을 마련해 왔습니다.

예를 들어, 기사에서 언급한 DiffusionSat은 위성 이미지에 맞춰 특별히 설계된 최초의 대규모 확산 모델로, 다중 스펙트럼 입력, 시계열 생성 및 초고해상도를 지원합니다.이 솔루션은 지리적 위치와 같은 메타데이터를 조건 정보로 혁신적으로 활용하여 위성 이미지에 텍스트 주석이 부족하다는 문제를 해결합니다.이와 관련된 연구는 스탠포드 대학의 한 팀에서 "DIFFUSIONSAT: A GENERATIVE FOUNDATION MODEL FOR SATELLITE MEAGERY"라는 제목으로 출판되었으며, ICLR 2024에 포함되었습니다.

서류 주소:

https://arxiv.org/pdf/2312.03606

또한, 베이징 항공우주대학교 연구팀은 "MetaEarth: 전 지구적 규모의 원격 탐사 이미지 생성을 위한 생성 기반 모델"이라는 제목의 연구를 발표했습니다. 연구팀은 MetaEarth라는 이름의 전 지구적 규모의 생성 모델을 제안했습니다.해상도 기반 자체 계단식 프레임워크를 통해 이 모델은 낮은 해상도에서 단계적으로 높은 해상도의 지리적 이미지를 생성할 수 있습니다.테두리 없는 스티칭을 구현하기 위해 슬라이딩 윈도우와 노이즈 공유 전략이 사용됩니다.

서류 주소:

https://arxiv.org/pdf/2405.13570

또한 MIT, 컬럼비아 대학교, 옥스퍼드 대학교 등 여러 팀의 연구원들은 기후 변화 관련 시각화를 위한 위성 이미지 합성에 있어 생성 시각 모델의 연구 진행 상황을 시연했습니다. 그들은 지구 지능 엔진(EIE)이라는 방법을 제안했습니다.물리적 기반 홍수 모델 예측과 위성 이미지를 심층 생성 시각 모델에 대한 입력으로 결합합니다.이는 생성된 이미지와 홍수 입력 자료의 교차점을 평가함으로써 달성됩니다. 결과는 이 방법이 물리적 일관성과 시각적 품질 측면에서 우수한 성능을 보이며, 물리적 조건이 없는 기준 모델보다 성능이 뛰어나고, 다양한 원격 탐사 데이터와 기후 현상에 대한 일반화 기능을 갖추고 있음을 보여줍니다. 본 논문의 제목은 "기후 시각화를 위한 물리적 일관성 있는 위성 이미지 생성"입니다.

서류 주소:

https://arxiv.org/html/2104.04785v5

생성 모델이 홍수 경보부터 전 지구적 규모의 생성적 표면 모델, 다중 스펙트럼 데이터 융합부터 시공간 동적 시뮬레이션에 이르기까지 위성 이미지의 생성 및 적용 범위를 재편하고 있다는 것은 의심의 여지가 없습니다. 이는 첨단 기술 혁신을 보여줄 뿐만 아니라 엄청난 응용 잠재력을 보여줍니다. 가까운 미래에 확산 모델 및 자가 계단식 프레임워크와 같은 기술의 추가적인 최적화를 통해 생성 모델이 위성 이미지 개발에 더욱 강력한 추진력을 불어넣을 것으로 기대합니다.

참고문헌:
1.https://arxiv.org/pdf/2312.03606
2.https://arxiv.org/html/2104.04785v5
3.https://arxiv.org/pdf/2405.13570