HyperAI초신경

IBM Research와 다른 연구진은 현재까지 가장 큰 원격 감지 명령 데이터 세트를 개발하면서 지구 관측 데이터를 위해 특별히 설계된 VLM을 제안했으며 이는 CVPR 2025에 선정되었습니다.

特色图像

지구 관측 분야는 혁명적인 발전의 물결을 겪고 있으며, 그 중요성이 날로 커지고 있습니다. 산업 규모 측면에서 볼 때 2024년 5월 세계경제포럼 보고서는잠재적인 경제적 가치는 2023년 2,660억 달러에서 2030년 7,000억 달러 이상으로 증가할 것입니다.많은 국가와 국제기구는 오랫동안 지구 관측의 전략적 중요성을 중시하고 적극적으로 계획을 세워왔습니다.

그러나 지구 관측 기술은 복잡한 데이터를 처리하는 데 어려움을 겪습니다. 기존의 위성 이미지 분석 시스템은 다중 소스 원격 감지 데이터를 처리하는 데 느리고 지리적 공간과 스펙트럼 차원을 분석하는 데 단점이 있습니다. 시각 언어 모델(VLM)은 일반적인 시각적 해석 분야에서 상당한 진전을 이루었지만, 일반적인 모델은 지구 관측 데이터에 대처하기 어렵습니다.고유한 공간적, 스펙트럼적, 시간적 차원으로 인해 모델에 대한 요구 사항이 높아지므로 고급 독점 모델조차도 특정 원격 감지 데이터를 처리하는 데 정확도가 떨어집니다.

이전에도 RS-GPT, GeoChat 등 특정 지구 관측 분야를 위한 VLM이 출시되었지만, 고해상도 이미지 처리, 다중 스펙트럼 및 다중 시간 분석 등에 한계가 있었습니다. 이와 관련하여 IBM Research, Emirates University of Artificial Intelligence, Australian National University, Linköping University, Sweden 등이 참여했습니다.다중 해상도, 다중 스펙트럼, 다중 시간 원격 감지 영상을 균일하게 처리할 수 있는 대화형 VLM인 EarthDial을 공동 출시하여 복잡한 다중 감각 지구 관측을 다양한 원격 감지 작업을 지원하는 대화형 자연어 대화로 혁신적으로 변환했습니다.연구팀은 다양한 다중 스펙트럼 모달리티를 포괄하는 1,111만 개 이상의 명령어 쌍으로 구성된 대규모 데이터 세트를 구축하여 모델의 강력한 기능을 위한 견고한 기반을 마련했습니다.

"EarthDial: 다중 감각 지구 관측을 대화형 대화로 전환"이라는 제목의 관련 연구 결과가 CVPR 2025에 선정되었습니다.

연구 하이라이트:

* EarthDial은 다양한 지구 관측 임무의 요구 사항을 충족하기 위해 다중 스펙트럼, 다중 시간, 다중 해상도 원격 감지 이미지를 처리할 수 있는 대화형 VLM입니다.

* 이 연구에서는 1,111만 개 이상의 명령 쌍을 포함하고 다양한 모달리티를 포괄하는 가장 큰 원격 감지 명령 미세 조정 데이터 세트를 도입하여 모델의 이해 및 일반화 기능을 크게 향상시켰습니다.

* 실험 결과 EarthDial은 44가지 하류 지구 관측 작업에서 좋은 성능을 보이며, 기존 도메인별 VLM보다 정확도가 높고 일반화 능력이 더 뛰어납니다.


서류 주소:

https://go.hyper.ai/ZtmPG

오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 놓았으며, 방대한 데이터 세트와 도구도 제공합니다.

https://github.com/hyperai/awesome-ai4s

데이터 세트: 다양한 해상도와 지리적 위치 정보를 포함하는 1,000만 개 이상의 명령어

지구 관측 기술 분야에서 데이터 차원의 복잡성과 임무 시나리오의 다양성은 모델의 일반화 능력에 심각한 과제를 제기합니다. 다중 모드, 다중 해상도 및 다중 시간 원격 감지 데이터 처리에서 기존 모델의 성능 병목 현상을 극복하기 위해EarthDial은 원격 감지 분야를 위해 특별히 대규모 데이터 세트인 EarthDial-Instruct를 구축했는데, 여기에는 1,100만 쌍이 넘는 전문가 지침이 포함되어 있습니다.이 데이터 세트의 사전 학습 전략은 여러 모달리티, 해상도, 기간에 걸쳐 일반화 역량을 구축하는 데 중점을 두고 있습니다. SkyScript, SatlasPretrain 등의 전문 플랫폼에서 고품질의 질의-답변 쌍을 선택하여 Sentinel-2 광학 이미지, Sentinel-1 합성개구레이더 데이터, NAIP 항공 이미지, Landsat 위성 이미지 등 다중 소스 이기종 원격 감지 데이터를 통합하고 동시에 지리적 레이블 정보를 구성합니다.

데이터 품질 관리 측면에서연구팀은 3중 필터링 메커니즘을 구현했습니다.첫째, 레이블 필드가 3개 미만인 희소 샘플이 제거됩니다. 둘째, 유효하지 않은 데이터는 분광 밝기 값 분포와 지리적 적용 범위를 기준으로 제외됩니다. 마지막으로, InternLM-XComposer2 모델의 도움으로 이미지의 지리적 요소에 따라 표준화된 질문-답변 지침 쌍이 자동으로 생성됩니다. 이 데이터 정제 시스템은 원격 감지 데이터의 스펙트럼 특징 차이, 공간 분해능 특성 및 시간 반사율 변화 법칙을 이해하는 데 필요한 모델의 견고한 기반을 제공합니다.

EarthDial은 실제 적용 요구를 목표로 정교한 다운스트림 작업 지침 시스템을 구축했습니다.10가지 핵심 작업, 6가지 시각적 모달리티, 2가지 단계 유형을 다룹니다.

장면 분류 작업에서,연구팀은 복잡한 지표 피복 분류 문제를 처리하기 위해 BigEarthNet 데이터 세트를 도입하고, FMoW 다중 시간 데이터 세트를 사용하여 토지 이용 변화에 대한 동적 식별을 실현했으며, 지역 기후 구역 데이터와 TreeSatAI 시계열 데이터 세트를 결합하여 도시 열섬 효과 분류 및 산림 수종 분포 식별을 수행하여 소규모 표본 전문 분야에서 기존 모델의 일반화 능력이 부족하다는 문제를 효과적으로 해결했습니다.

타겟 탐지 작업에서,연구팀은 광학, SAR, 적외선 등 다중 모드 이미지를 포괄하는 참조, 식별, 위치 지정의 세 가지 유형의 레이블을 포함하는 지침 시스템을 설계했으며, 대상의 주요 속성을 정량화하여 정확한 공간적 위치 지정과 특징 설명을 달성했습니다.

시각적 질의응답과 이미지 설명 작업은 다중 소스 데이터 세트를 통합하여 복합적인 지침 세트를 구축합니다.작업 다양성과 모델 처리 성능이 크게 향상되었습니다.변경 감지 작업은 다중 데이터 세트 융합 전략을 채택합니다.수동 시퀀스 분석과 결합하여 표준화된 설명 프레임워크가 생성되었습니다.

연구팀은 메탄 플룸 감지에 대한 특수한 요구에 대응하여 STARCOP 데이터 세트를 기반으로 대화형 프롬프트 템플릿을 설계하여 정확한 목표 안내를 달성했습니다. 도시 열섬 효과 연구는 이미지 데이터를 통해 주요 열 지표를 역전시키고, 지역 분류 모델을 수립하고 주제별 분석 지침을 생성했습니다. 재난 평가 모듈은 xBD 지진 재난 데이터 세트와 QuakeSet 지진 시퀀스 데이터를 통합하여 재난 수준 분석 및 지진 후 영향 평가를 위한 전담 교육 시스템을 구축했습니다.

EarthDial 해석 가능 데이터 모델 및 애플리케이션

EarthDial: 다중 해상도, 다중 스펙트럼 및 다중 시간 원격 감지 데이터의 통합 처리를 위한 전용 모델

EarthDial은 분류, 시각적 위치 파악, 변경 감지 등의 작업에 유연하게 적용할 수 있습니다.이는 고급 자연 이미지 시각 언어 모델(VLM)을 기반으로 합니다.다단계 미세 조정을 통해 기능이 확장되었으며, 개선된 InternVL을 아키텍처로 사용하여 다중 스펙트럼 및 다중 시간 데이터를 지원합니다.

아래 그림과 같이,이 모델은 시각적 인코더, MLP 계층 프로젝터, LLM의 세 가지 구성 요소로 구성됩니다.시각적 인코더는 시각적 태그를 LLM 공간에 매핑하기 위한 연결 블록으로 MLP를 통해 LLM에 연결됩니다.

동시에 이 모델은 매개변수가 40억 개에 불과한 가벼운 디자인을 가지고 있습니다. 효율적인 운영을 보장하는 동시에 다양한 유형의 원격 감지 데이터 세트를 수신하고 정확한 원격 감지 대화 콘텐츠를 생성할 수 있습니다. 이 중 시각적 인코더는 60억 개의 매개변수를 가진 InternViT에서 추출한 가벼운 InternViT-300M을 사용하여 강력한 시각적 인코딩 기능을 보장합니다. Phi-3-mini 사전 훈련된 LLM은 모델에 뛰어난 언어 이해 및 생성 기능을 제공합니다. 간단한 MLP 연결 블록은 시각적 공간과 언어 공간 사이에 효과적으로 다리를 놓습니다.

또한,적응형 고해상도와 데이터 융합이라는 두 가지 핵심 모듈을 추가하면 이 모델이 복잡한 원격 감지 데이터를 처리하는 데 중요한 역할을 하게 됩니다.적응형 고해상도 모듈은 InternVL 1.5의 동적 전략을 활용합니다. 이미지를 타일로 나누고 썸네일을 생성함으로써 고해상도 이미지의 세부 정보를 유지할 뿐만 아니라 전반적인 장면에 대한 이해도 제공합니다. 데이터 융합 모듈은 다중 스펙트럼, SAR 및 기타 데이터에 대한 채널 처리, 기능 집계 및 차원 축소와 같은 전략을 사용하여 시각적 기능과 텍스트 기능을 긴밀하게 융합하여 복잡한 작업에서 모델의 성능을 크게 향상시킵니다.

EarthDial 아키텍처

EarthDial은 훈련 단계에서 3단계 전략을 사용하여 점진적으로 성능을 향상시킵니다.

첫 번째 단계는 RS 대화 사전 훈련입니다.이 단계에서는 Satlas와 Skyscript 등의 데이터 세트에서 가져온 760만 개의 이미지-텍스트 쌍을 사전 학습에 사용하여 비전 및 텍스트 정렬 기능을 구축합니다.

두 번째 단계는 RS RGB 및 Temporal 미세 조정입니다.이 단계에서는 RGB 및 시간 데이터를 미세 조정하고 MLP 및 LLM 계층을 최적화합니다.

세 번째 단계는 RS 다중 스펙트럼 및 SAR 미세 조정입니다.이 단계는 다중 스펙트럼 및 SAR 데이터로 확장되어 MLP 및 LLM 계층을 미세 조정합니다.

이 3단계의 훈련은 점진적으로 진행되며, EarthDial은 강력한 지구 관측 데이터 분석 및 작업 실행 역량을 갖추고 환경 모니터링 및 재난 대응과 같은 분야에서 혁신적인 돌파구를 마련합니다.

EarthDial 교육 전략

실험 결과: 다중 작업은 기존 모델보다 성능이 뛰어나며 이중 단계 및 다중 단계 시퀀스 분석 처리에 적합합니다.

실험 결과, EarthDial 모델은 다양한 응용 시나리오에서 뛰어난 성능을 보였습니다. RGB, 다중 스펙트럼, SAR, 적외선 및 열 영상과 같은 이미지 데이터를 다루고 장면 분류, 객체 감지, 시각적 질의 응답(VQA), 이미지 설명, 변화 감지 및 메탄 플룸 감지와 같은 작업을 평가합니다.

장면 분류 작업에서,EarthDial은 제로샷 평가를 통해 여러 데이터 세트, 특히 fMoW 및 xBD 테스트 세트에서 기존 VLM의 성능을 크게 개선합니다.

타겟 탐지 작업에서,EarthDial은 참조 대상 탐지, 지역 설명 및 위치 설명의 세 가지 하위 작업에서 GPT-4o, InternVL2-4B 및 GeoChat과 같은 모델보다 우수한 성능을 보이며, 특히 위치 설명 작업과 SAR 이미지 데이터 세트에서 우수한 성능을 보입니다.

이미지 설명 및 VQA 작업의 경우EarthDial은 관련 데이터 세트에서 기존 모델보다 우수한 성능을 보입니다. VQA 작업에서 EarthDial은 RSVQA-LRBEN 및 RSVQA-HRBEN 데이터 세트를 사용하여 평가되었으며 대부분 범주에서 우위를 보였습니다.

변경 감지 작업에서EarthDial은 데이터 융합 전략을 통해 시간 데이터를 효과적으로 처리하여 강력한 시간 데이터 해석 및 대응 역량을 보여줍니다.

재난 평가 임무에서xBD 데이터 세트의 8개 하위 작업을 기반으로 EarthDial은 이미지 분류 테스트 세트 1과 같은 하위 작업에서 기존 VLM보다 지속적으로 우수한 성능을 보였습니다. 지진 예측을 위해 SAR 이미지를 사용하는 QuakeSet 데이터 세트에서 EarthDial은 57.53%의 정확도를 달성하여 GPT-4o를 넘어섰습니다.

다중 모드 데이터 처리 측면에서,EarthDial은 다중 스펙트럼, RGB-적외선, SAR 이미지의 분류 및 대표적인 객체 감지 작업에서 GPT-4o의 성능을 크게 개선하여 다중 대역 융합 전략의 효과를 강조합니다.

도시 열섬 현상(UHI) 실험에서EarthDial은 56.77%의 정확도를 달성하고 Landsat8 대역의 온도 추세를 식별할 수 있는데, 이는 GPT-4o의 22.68%보다 더 뛰어납니다.

메탄 플룸 분류 작업에서,EarthDial은 STARCOP 데이터 세트를 사용하여 77.09%의 정확도를 달성했으며, 이는 GPT4o보다 32.16%가 향상된 수치입니다.

지구 관측의 AI 혁명: 데이터 수집에서 지능적 의사 결정으로의 패러다임 전환

글로벌 디지털 전환의 물결 속에서 AI 기술은 지구 관측 분야에 큰 변화를 가져오고 있습니다. 다중 모드 대형 모델 및 궤도상 지능형 처리와 같은 기술적 혁신을 통해 이 분야는 전통적인 데이터 수집에서 "지각-인지-의사결정"의 폐쇄 루프 지능형 시스템으로의 전환을 가속화하여 글로벌 지속 가능한 개발을 뒷받침하는 핵심 인프라가 되었습니다.

첫째, 기술적 혁신으로 인해 업계는 수동적 기록에서 능동적 개입으로 전환되고 있습니다. 유럽 우주국과 IBM이 공동으로 개발한 TerraMind 모델은 8가지 유형의 이기종 데이터 소스를 통합합니다.이는 세계 최초의 지구 관측을 위한 다중 모드 기본 모델이 되었습니다.모달 추론 기술은 시베리아 툰드라의 메탄 누출 모니터링에서 데이터를 지능적으로 완성하여 예측 정확도를 20%만큼 향상시키고 컴퓨팅 전력 소비를 50%만큼 줄였습니다. 아마존 열대 우림 모니터링 시나리오에서는 생성 기능을 사용하여 누락된 이미지를 자동으로 복구하고 전천후 모니터링을 실현합니다.

중국과학원 우주정보혁신연구소의 '스페이스링모우' 3.0 모델은 수십억 개의 매개변수를 갖춘 풀링크 해석 시스템을 구축했습니다.4-10%는 기존 모델에 비해 정확도가 향상되었습니다.또한 슝안신구의 생태적 평가 등의 시나리오에도 적용됩니다. 궤도상 지능형 처리 측면에서 위성 탑재체의 지능형 업그레이드로 인해 엣지 컴퓨팅 기능의 획기적인 발전이 이루어졌습니다. ESA의 Φsat-2 위성은 실시간으로 화재 현장을 포착하는 산불 모니터링 시스템과 생태적 위협을 신속하게 식별하는 알고리즘을 포함하여 6개의 AI 애플리케이션 모듈을 탑재하고 있습니다. 이러한 기술적 혁신은 지구 관측이 실시간 의사 결정으로 나아가는 데 도움이 됩니다.

둘째, AI 기술은 지구 관측 분야에서 광범위한 응용 시나리오를 가지고 있으며, 거시 모니터링에서 미시 거버넌스까지 전면적으로 포괄합니다. 기후 및 생태적 거버넌스 측면에서TerraMind는 유럽 우주국(ESA)과 IBM Research Europe가 개발한 고급 지구 관측 AI 모델입니다.Sentinel 위성 초분광 데이터를 지상 센서 네트워크와 통합하여 시베리아 천연가스 파이프라인 모니터링에서 미터 수준의 위치 정확도를 달성했으며, 누출 추세 예측 정확도가 30% 증가했습니다. NASA와 Google의 Global Forest Watch 3.0 시스템은 AI와 드론 검사를 결합합니다.콩고 분지에서 불법 벌목 지역 87%를 성공적으로 식별했습니다.열대우림을 보호하기 위해 강력한 "디지털 울타리"를 구축하세요.

* 논문 링크:

https://doi.org/10.1016/j.rse.2021.112470

재난 대응 및 도시 계획 측면에서 알리바바 다모 아카데미의 원격 감지 AI 대형 모델 AIE-SEG는 2024년 터키 지진 당시 3시간 이내에 재난 지역의 건물 피해 평가를 완료했습니다.효율성은 기존의 수동 분석보다 50배 더 높습니다.청화대학교 연구팀이 개발한 시공간적 예측 모델은 도시 환기 복도의 기류 움직임을 시뮬레이션하여 베이징의 도시 계획에 대한 정량적 의사 결정 지원을 제공합니다. 농업과 자원 관리 측면에서 Microsoft Project Premonition은 인도 안드라프라데시에서 시범 운영되고 있습니다.AI 기반 정밀 파종 권장 사항으로 작물 수확량이 헥타르당 30% 증가합니다.스마트 농업을 위한 실시간 데이터 지원을 제공합니다.

마지막으로 생태 구축 측면에서는 지구 관측 분야에서 산학연 협력과 글로벌 거버넌스가 꾸준히 발전하고 있으며, 오픈소스 생태 구축과 툴 체인도 끊임없이 개선되고 있습니다. 예를 들어,Google Earth AI, API 인터페이스 공개글로벌 개발자들이 위성 데이터 지능형 처리 기능에 접근하고 기술 적용에 대한 한계를 낮추는 데 도움을 줍니다. 유엔의 "AI for Good" 이니셔티브는 인공지능을 활용하여 자연재해에 대처하고, 전 세계적으로 통일된 재해 평가 기준을 수립하고, 데이터 상호 운용성과 기술 협업을 장려합니다.

이는 AI 기술이 지구 관측을 '수동적 기록'에서 '능동적 개입'으로 전환하고 있음을 보여줍니다. 미래에는 다중 모드 대형 모델, 궤도상 지능 처리, 양자 컴퓨팅 등의 기술이 통합되어 지구 관측이 탄소 중립, 재해 예방 및 완화, 자원 관리 등의 글로벌 이슈를 뒷받침하는 디지털 초석이 되고, 인간과 자연의 공생 관계에서 지속 가능한 발전의 새로운 장을 쓸 것으로 기대됩니다.

참고문헌:

1.https://www.thepaper.cn/newsDetail_forward_30704895

2.https://mp.weixin.qq.com/s/i_Ar0RJ7g32s1ckCq81P-Q

3.https://mp.weixin.qq.com/s/xpjJH8ECV-2P4e4XKoXU9Q

4.https://mp.weixin.qq.com/s/NLp3