Command Palette

Search for a command to run...

Google 팀은 Earth AI에 협력하여 3가지 핵심 데이터 포인트에 집중하고 공간 추론 기능을 64%만큼 향상시켰습니다.

Featured Image

지구의 시공간적 법칙에 대한 인간의 탐구는 항상 환경 과학과 지리학 발전의 핵심 동력이었습니다. 자연 현상에 대한 경험적 요약에 의존하던 것에서 컴퓨터 기술을 활용한 일기 예보에 이르기까지, 지구 시스템에 대한 인간의 인식은 질적 수준에서 양적 수준으로 도약했습니다. 21세기 이후 위성 원격 탐사, 지상 센서 네트워크, 전 세계 인구 데이터베이스와 같은 기술이 점차 발전하면서 지공간 데이터가 폭발적으로 증가했습니다. 이러한 데이터는 지구물리적 환경, 인간 활동, 재난 역학과 같은 다차원적 정보를 포괄하며, 지역 평가, 자원 배분, 기후 연구의 핵심 기반이 되었습니다. 이러한 맥락에서,지리공간 인공지능(GeoAI)은 '지구 데이터'와 '과학적 통찰력'을 연결하는 중요한 다리로 떠올랐습니다.

그러나 데이터의 급증은 심각한 "복잡성 장벽"을 가져오기도 합니다.한편, 공간 데이터는 매일 수십억 개씩 증가하고 있으며, 유형과 해상도, 그리고 기간도 매우 다양합니다. 더욱이 일부 외딴 지역에서는 데이터 희소성이 존재합니다. 반면, 기존의 전문 모델은 종종 단일 작업에 국한되어 여러 출처의 정보를 통합하는 데 어려움을 겪습니다. 이로 인해 분석 효율성이 낮고 일반화 능력이 부족하여 지역 간 재난 대응 및 다요인 공중 보건 예측과 같은 복잡한 시나리오의 요구를 충족하지 못합니다. GeoAI가 "일반화된 기반 모델"로 전환되었지만, 기존 솔루션은 여전히 다중 모드 협업 및 보편적 접근성이 부족합니다.

위의 과제에 대응하여,Google Research는 Google X, Google Cloud 및 기타 팀과 협력하여 "Earth AI" 지리공간 지능 추론 시스템을 제안했습니다.이 시스템은 상호 운용 가능한 GeoAI 모델군을 구축하고, 영상, 인구, 환경이라는 세 가지 핵심 데이터 유형을 기반으로 특화된 기반 모델을 개발합니다. 이러한 모델은 다양한 차원의 분석 요구에 정확하게 적응합니다. Gemini 기반 추론 에이전트를 통해 시스템은 심층적인 다중 모델 협업과 다단계 공동 추론을 가능하게 합니다. 또한 자연어 상호 작용을 통해 진입 장벽을 크게 낮추어 비전문가 사용자도 학제 간 실시간 분석을 수행할 수 있도록 지원하여 지구 시스템 연구를 "데이터 축적"에서 "실행 가능한 글로벌 통찰력"으로 발전시킵니다.

관련 연구 결과는 "지구 AI: 기초 모델과 교차 모달 추론을 통한 지리공간적 통찰력 확보"라는 제목으로, 사전 인쇄본이 arXiv에 게시되었습니다.

연구 하이라이트:

* 본 연구의 원격 감지 기반 모델은 개방형 어휘 객체 탐지 및 제로샷 교차 모달 검색과 같은 작업에서 최첨단 결과를 달성했습니다. 또한, 인구 역학 모델은 소매 및 공중 보건 분야의 실제 적용을 효과적으로 개선하기 위해 독립적으로 검증되었으며, 월 단위의 시계열 임베딩을 지원하도록 업그레이드되었습니다.

* 본 연구는 영상, 인구 통계 및 환경 모델을 통합하여 더욱 강력한 다중 모드 예측 프레임워크를 구축합니다. 실증적 증거에 따르면 이러한 융합 접근법은 여러 실제 분류 및 예측 작업에서 단일 모드 분석 결과보다 훨씬 우수한 성능을 보입니다.

* 이 연구는 에이전트 기반 복잡한 지리공간 추론을 구현합니다. Gemini가 구동하는 추론 에이전트는 복잡한 지리적 쿼리를 자동으로 분해하고, 다중 모델 도구를 실행하고, 투명한 추론 체인을 표시하고, 궁극적으로 일관된 결론을 생성할 수 있습니다.

서류 주소:
https://doi.org/10.48550/arXiv.2510.18318

공식 계정을 팔로우하고 "Earth AI"라고 답글을 달면 전체 PDF를 받아볼 수 있습니다.

Earth AI 데이터 시스템: 크로스 모달 지리공간 분석을 위한 기반 구축

Earth AI의 교육 기반은 지구 시스템 분석을 위한 세 가지 유형의 전문적인 지리공간 데이터 세트를 기반으로 구축되어 이미지, 인구 및 환경에 대한 심층적인 해석을 지원합니다.

이미지 데이터 처리 측면에서 이 시스템은 여러 개의 대규모 원격 감지 데이터 세트를 통합합니다.RS-Landmarks는 고품질 텍스트 설명이 포함된 1,800만 개의 위성 및 항공 이미지를 포함하고 있습니다. RS-WebLI는 분류기를 사용하여 웹에서 300만 개 이상의 오픈 원격 감지 이미지를 선별하며, 이는 수천억 개로 확장될 수 있는 잠재력을 가지고 있습니다. RS-Global은 2003년부터 2022년까지의 기간에 걸쳐 0.1~10m의 해상도로 전 세계 육지를 포함하는 3,000만 개의 이미지를 제공합니다. 이러한 데이터 세트는 비전 언어 모델, 오픈 어휘 객체 감지, 퓨샷 학습 및 사전 학습된 백본 모델과 같은 원격 감지 전용 모델의 개발 및 최적화를 위한 데이터 기반을 형성합니다.

인구동태분석 측면에서,이 데이터 세트는 건축 환경, 자연 요소, 인간 행동의 세 가지 유형의 정보를 심층적으로 통합하고 그래프 신경망 기술을 사용하여 통합된 지역 임베딩을 생성합니다. 이 시스템은 미국의 원래 단일 연도 데이터를 기반으로 두 가지 주요 확장을 달성했습니다. 공간적 차원에서는 호주, 브라질, 인도를 포함한 17개국으로 커버리지를 확장했으며, 지식 그래프를 통해 검색 의미 체계를 정렬하여 언어 간 및 국가별 패턴 인식 기능을 향상시켰습니다. 관련 정적 임베딩은 역학 모델링 연구를 위해 공개되었으며, 시간적 차원에서는 2023년 7월부터 현재까지의 월별 동적 임베딩 시퀀스를 구축했습니다. 실험적 라벨링 시스템은 건강, 사회경제, 환경과 같은 광범위한 지표를 포괄하며, 예일 팝하이브 플랫폼의 카운티 수준 역학 월별 방문 데이터를 통합합니다. 유럽 지역 평가는 또한 유럽 통계청의 NUTS 레벨 3 데이터를 결합합니다.

환경 데이터는 날씨, 기후, 자연재해라는 세 가지 유형의 정보원을 통합합니다. 다중 출처 관측 및 머신러닝 모델을 기반으로 240시간 단위의 시간별 기상 예보와 10일 단위의 일별 예보, 측정된 관측소 데이터를 기반으로 한 실시간 홍수 모니터링 및 예측, 그리고 50개의 가능한 경로를 생성하고 강도, 풍향, 그리고 상륙 지점을 15일 전에 예측할 수 있는 무작위 신경망 기반 실험적 사이클론 예측 시스템을 제공합니다.

이러한 구조화되고 표준화된 데이터 세트는 다양한 분야에서 독립적인 분석을 지원할 뿐만 아니라 Gemini 기반 추론 에이전트를 통해 긴밀한 교차 모달 협업을 달성합니다.이 시스템은 복잡한 자연어 쿼리 구문 분석부터 다중 소스 정보 융합에 이르기까지 엔드 투 엔드 분석을 가능하게 합니다. 또한, 비전문가도 자연어 또는 지도 인터페이스를 통해 복잡한 지리공간 분석 기능에 직접 접근할 수 있는 견고한 데이터 기반을 제공합니다.

Earth AI: 지구 시스템의 지능적 분석을 위한 다중 모드 협업 프레임워크를 향하여

Earth AI는 "지구 시스템에 대한 다중 모드 협업적 이해"를 핵심 목표로 하는 상호 운용 가능한 지리공간 인공지능 모델 제품군입니다.맞춤형 지공간 추론 에이전트를 통해 구성 요소 조정을 달성하고, 기초 모델(FM)과 대규모 언어 모델(LLM) 추론을 기반으로 하는 일반화된 시스템을 구축함으로써, 단일 목적 모델의 한계를 극복하고 광범위한 지구 문제에 대한 실행 가능한 통찰력을 생성할 수 있습니다. 핵심 시스템은 "세 가지 유형의 기초 모델 + 모델 협업 메커니즘 + 에이전트 오케스트레이션"을 중심으로 구성됩니다.

EarthAI 개요

이미지 분석 분야에서 Earth AI는 원격 탐사 기본 모델에 중점을 둡니다. Earth AI의 핵심 목표는 원격 탐사 데이터에서 흔히 발생하는 두 가지 핵심 과제, 즉 주석 부족과 특이한 이미지 분포 문제를 해결하고, 지구 관측 시나리오의 효율적인 의미론적 이해 및 대상 분석을 위한 기술 지원을 제공하는 것입니다.아래 그림에서 볼 수 있듯이, 이 모델은 Google Maps에서 전문적인 항공 및 위성 이미지를 추출하고, 위치 및 랜드마크와 같은 공간 메타데이터와 결합하여 Gemini 모델에 제공합니다. 그런 다음, 맞춤형 프롬프트를 통해 이미지 콘텐츠와 정확하게 일치하는 합성 캡션을 생성합니다. 또한 WebLI 원격 탐사 이미지와 텍스트 주석, 그리고 수동으로 레이블이 지정된 원격 탐사 분할 및 객체 감지 데이터 세트를 통합합니다. 이 다중 소스 데이터는 사전 학습된 ViT 인코더, 비전 언어 모델(VLM), 그리고 개방형 어휘 객체 감지 모델(OVD)의 세 가지 핵심 모델 사전 학습을 위한 고품질 샘플 지원을 제공합니다.

원격 탐사 기본 모델 개요

이 중 시각 언어 모델은 맞춤형 데이터셋을 기반으로 학습되고, 이미지와 텍스트 간의 특징 연관을 최적화하여 통합된 의미 이해 공간을 구축합니다. 개방형 어휘 객체 탐지 모델은 개선된 트랜스포머 아키텍처를 채택하여 이미지와 텍스트 특징을 각각 두 개의 독립적인 모듈에서 처리합니다. 시각 트랜스포머 인코더는 먼저 자기 지도 학습을 통해 대용량 이미지에서 기본 특징을 추출한 후, 다중 작업 공동 최적화를 통해 특정 작업에서 모델의 적응성과 성능을 향상시킵니다. 실제 응용 링크에서 연구진은 각각의 분류(Classification), 탐지(Detection), 검색(Retrieval) 작업에 VLM 및 OVD 모델을 직접 사용했으며, ViT 인코더(Fine-Tuning)를 미세 조정하여 후속 특정 작업에서 최상의 SOTA 성능을 얻었습니다.

인구 분석 측면에서 Earth AI는 인구 역학의 기본 모델을 핵심으로 삼고, 다중 소스 정보 융합과 개인정보 보호의 원칙을 따르며, 건축 환경, 자연 조건, 인간 행동에 대한 데이터를 통합하고 그래프 신경망을 통해 통합된 지역 임베딩을 생성합니다.

아래 그림과 같이 단일 모델의 한계를 돌파하기 위해서는Earth AI는 "공간 정렬 + 표현 통합"을 사용하여 다중 모델 협업을 달성합니다.다양한 모델의 출력은 통합된 지리적 단위에 매핑되고 표현은 융합됩니다. 예를 들어, AlphaEarth 기반 모델의 영상, 지형 및 기후 정보는 인구 모델의 인간 활동 신호를 보완하여 포괄적인 지역적 초상을 구축합니다. 이 모델은 두 단계로 작동합니다. 첫 번째 단계는 오프라인 학습으로, 지도, 검색 추세, 환경 조건과 같은 지리공간 데이터를 사용하여 컴팩트한 지역 임베딩을 인코딩합니다. 두 번째 단계는 사전 학습된 임베딩을 사용하여 동적 미세 조정을 수행하고, 보간, 외삽, 초해상도, 나우캐스팅과 같은 후속 작업을 지원합니다.

기본 인구 역학 모델의 2단계 프레임워크

Earth AI는 복잡한 다단계 지리공간 문제를 해결하기 위해 Gemini 기반 지리공간 추론 에이전트를 개발했습니다. 이 에이전트는 Google Agent Development Kit(ADK)를 기반으로 하며, 일반적인 추론 기능과 이미지 분석, 인구 통계, 환경 시뮬레이션, 시공간 모델링의 네 가지 전문 기능을 통합합니다. 또한 지리공간 데이터 처리, 코드 생성, Earth Engine 데이터 접근을 위한 지원 도구도 제공합니다.

아래와 같이,이 작업의 핵심 논리는 "쿼리 분석 - 작업 분해 - 도구 호출 - 결과 종합"입니다.폐쇄 루프 방식의 반복적으로 최적화된 대응 프로세스("생각하고 계획하기" → 데이터/모델 추론/모델 학습 → 반성하고 복구하기")를 통해 복잡한 사실 확인, 분석 및 관계형, 예측이라는 세 가지 유형의 복잡한 질의를 처리할 수 있습니다. 자연어 또는 지도 인터페이스를 통해 상호 작용하는 사용자는 간단한 사실 정보를 질의하는 것뿐만 아니라 과거 사건 발생 시 중요 시설의 분포를 추적하고 고위험 및 사회적 취약 지역을 예측하는 것과 같은 복잡한 작업도 수행할 수 있습니다. 이는 회고적 분석부터 미래 지향적 계획 수립까지 다양한 의사 결정 요구를 지원합니다.

지리공간 추론 에이전트 운영 프레임워크

여러 공개 벤치마크에서 SOTA 성능을 달성하여 Gemini 2.5 Pro보다 64% 향상을 달성했습니다.

Earth AI의 실험 시스템은 단일 모델 성능, 다중 모델 협업, 그리고 에이전트 추론의 세 가지 수준으로 구성됩니다. 이 시스템은 영상과 인구라는 두 가지 기본 모델을 체계적으로 평가하고, 통합 애플리케이션 및 공간 추론에서 각 모델의 종합적인 성능을 평가합니다.

단일 모델 성능 검증 단계에서 이미지 기반 모델은 여러 작업에서 탁월한 성능을 보였습니다. SigLIP2 및 MaMMUT 아키텍처 기반의 비전-언어 모델은 여러 공개 벤치마크에서 제로샷 분류 및 텍스트 검색 작업에서 최첨단 성능을 달성했으며, 일부 지표는 더 큰 매개변수를 사용하는 범용 대화형 모델과도 비교 가능했습니다. 공개 어휘 검출 모델은 DOTA 및 DIOR 데이터셋에서 각각 31.831 TP3T 및 29.391 TP3T의 제로샷 테스트 mAP를 달성했습니다. 클래스당 30개의 샘플만 사용하는 퓨샷 학습 후, mAP는 531 TP3T 이상으로 더욱 향상되어 기존 방법보다 훨씬 우수한 성능을 보였습니다. 사전 훈련된 백본 모델은 ImageNet 사전 훈련 기준선과 비교하여 분류, 검출 및 분할을 포함하는 13개의 하위 작업에서 평균 14.931 TP3T의 성능 향상을 달성했으며, FMOW 분류 및 FLAIR 분할과 같은 작업에서 새로운 성능 기록을 세웠습니다.

인구 역학 기본 모델은 공간 보간 및 시간 예측 작업에서 뛰어난 성능을 보여줍니다. 아래 그림과 같이,글로벌 임베딩은 20% 지역의 결측 변수를 예측하는 작업에서 안정적인 R² 성능을 유지하고 국가 간 일반화 테스트에서 우수한 전이성을 검증합니다.2023년 7월부터 구축된 월별 동적 임베딩을 기반으로, COVID-19 및 독감 응급실 방문에 대한 외삽 예측의 평균 절대 오차는 정적 임베딩보다 현저히 낮았으며, 특히 가을과 겨울 질병 발생이 가장 많은 시기에 유의미한 이점을 보였습니다. 제3자 검증을 통해 실제 시나리오에서 이 모델의 적용 가능성과 견고성이 더욱 확인되었습니다.

동적 및 정적 인구 역학을 기반으로 한 평균 절대 외삽 오차

다중 모델 협업 실험에서 인구 역학을 AlphaEarth 기반 모델과 통합함으로써 예측 정확도가 크게 향상되었습니다.미국 인구조사 구역에 대한 FEMA 재난 위험 점수를 예측하는 데 있어, 융합 모델은 개별 모델 대비 평균 111 TP3T의 R² 개선을 달성했습니다. 21개의 CDC 건강 지표를 예측할 때, 이 시스템은 인구 모델과 AlphaEarth 모델을 단독으로 사용했을 때보다 각각 71 TP3T와 431 TP3T 높은 성능을 보였습니다. 또한, 이 시스템은 사이클론 예보와 인구 모델을 결합하여 허리케인으로 인한 재산 피해를 예측하고, 콩고민주공화국의 콜레라 위험 경보 발령을 위해 시계열 예보 및 기상 모델과 협력하여 기준 모델 대비 RMSE를 341 TP3T 감소시키는 능력을 보여주었습니다.

지공간 추론 에이전트의 성능은 표준화된 질의응답 세트와 위기 시나리오 테스트를 통해 평가되었습니다. 100개 문항으로 구성된 평가 세트에서 에이전트는 총점 0.82점을 획득하여 Gemini 2.5 Pro 대비 64%, Flash 대비 110% 향상되었습니다. 에이전트의 성능은 특히 분석 추론 과제에서 우수했습니다. 10가지 위기 대응 시나리오에 대한 테스트에서, 에이전트는 여러 차례의 반복 최적화를 거친 후 리커트 척도 점수에서 기준 시스템보다 지속적으로 우수한 성능을 보였으며, 이는 복잡하고 다단계로 구성된 지공간 추론 과제 처리에 있어 에이전트의 효과성과 신뢰성을 입증했습니다.

지공간 정보의 기술적 혁신과 응용 사례

Earth AI가 주도하는 핵심 기술 방향에 초점을 맞춰, 전 세계 학계와 산업계는 알고리즘 혁신에서부터 체계적이고 시나리오 기반 구현에 이르기까지 지리공간 지능을 촉진하고, 점진적으로 다층적이고 고도로 조율된 기술 생태계를 구축하기 위해 협력하고 있습니다.

연구의 최전선에서 다양한 방식에 대한 통합적인 이해가 중요한 돌파구가 되었습니다. 이탈리아 트렌토 대학교, 독일 뮌헨 공과대학교, 독일 베를린 공과대학교, 그리고 불가리아 INSAIT 연구소가 공동 개발한 EarthMind 프레임워크를 기반으로, 연구팀은 원격 탐사 시나리오를 위한 통합된 다중 세분성, 다중 센서 이해 시스템을 구축했습니다.

논문 제목:EarthMind: 대규모 다중 모드 모델을 활용한 다중 입자 및 다중 센서 지구 관측을 향해

논문 링크:https://doi.org/10.48550/arXiv.2506.01667

스탠퍼드 대학교 페이페이 리(Fei-Fei Li) 교수가 설립한 월드 랩스(World Labs)는 최근 X 플랫폼을 통해 공간 지능 모델인 마블(Marble)의 제한적 베타 버전을 출시했습니다. 이 모델은 3D 세계 생성 기술에 중점을 두고, 단일 이미지나 텍스트 프롬프트로부터 지속적이고 자유롭게 탐색 가능한 3D 장면을 구축합니다.

산업적 응용 측면에서 기업들은 지리공간 정보를 핵심 비즈니스 시스템에 적극적으로 내장하고 있습니다. NVIDIA와 UAE G42는 Earth-2 플랫폼을 만들기 위해 협력했습니다.FourCastNet 글로벌 모델과 CorrDiff 다운스케일링 아키텍처의 협업을 통해 생성적 AI를 사용하여 고정밀 기상 예보 시스템을 구축함으로써 2km 국가 예보에서 200m 도시 수준 기상 예보까지 정교한 출력을 얻을 수 있으며, 몇 시간에서 몇 분까지 걸리는 기존 시뮬레이션을 압축하여 극한 기상 현상에 대한 경고 및 대응 역량을 크게 개선할 수 있습니다. IBM과 NASA가 공동으로 공개한 오픈소스 지리공간 AI 기반 모델입니다.NASA의 Harmonized Landsat Sentinel-2 프로젝트의 대규모 위성 데이터를 기반으로 학습되고 다중 작업 공동 최적화 프레임워크를 사용하는 이 모델은 기후 변화 모니터링, 삼림 벌채 동적 추적, 작물 수확량 추정 등 다양한 응용 분야를 지원합니다. 모델 최적화 측면에서는 학습 효율을 15%만큼 향상시켰을 뿐만 아니라, 주석 처리된 데이터의 절반만을 사용하여 15%의 성능 향상을 달성했습니다.

학문적 혁신에서 산업 실무에 이르기까지, 지공간 지능은 전례 없는 깊이와 폭으로 지구 시스템에 대한 인간의 이해와 의사 결정에 통합되고 있습니다. 멀티모달 융합, 크로스스케일 모델링, 에이전트 협업과 같은 핵심 기술의 지속적인 혁신을 통해, 지구 AI와 같은 분석 프레임워크는 기후 대응, 재난 예방 및 통제, 자원 관리와 같은 지구적 과제를 해결하는 데 더욱 중심적인 역할을 수행하여 과학과 사회 관리의 조화로운 발전을 주도할 것으로 예상됩니다.

참조 링크:
1. https://mp.weixin.qq.com/s/XeZdQbMvvnQId6PLWM7K1A
2. https://mp.weixin.qq.com/s/WdIq1SToGa3jmVlbGZsy8w
3. https://mp.weixin.qq.com/s/C3XqmCooqwch1JyAXCnYlQ
4. https://mp.weixin.qq.com/s/ix0r3lwiqE18gYxvJupr0g