Command Palette
Search for a command to run...
Google-Teams Arbeiten Gemeinsam an Earth AI, Konzentrieren Sich Dabei Auf Drei Zentrale Datenpunkte Und Verbessern Die Fähigkeiten Zum Georäumlichen Denken Um 64%.

Die menschliche Erforschung der zeitlichen und räumlichen Gesetze der Erde war schon immer die treibende Kraft für die Entwicklung der Umweltwissenschaften und der Geographie. Von der empirischen Beschreibung natürlicher Phänomene bis hin zu computergestützten Wettervorhersagen hat sich die menschliche Wahrnehmung des Erdsystems von qualitativ zu quantitativ entwickelt. Seit dem 21. Jahrhundert sind Technologien wie Satellitenfernerkundung, Bodensensornetzwerke und globale demografische Datenbanken immer ausgereifter geworden, was zu einem explosionsartigen Wachstum georäumlicher Daten geführt hat. Diese Daten umfassen mehrdimensionale Informationen wie die geophysikalische Umwelt, menschliche Aktivitäten und die Dynamik von Katastrophen und sind zu einer wichtigen Grundlage für regionale Bewertungen, Ressourcenallokation und Klimaforschung geworden. In diesem ZusammenhangGeoräumliche künstliche Intelligenz (GeoAI) hat sich als wichtige Brücke zwischen „Erddaten“ und „wissenschaftlichen Erkenntnissen“ herausgestellt.
Allerdings bringt die Datenflut auch erhebliche „Komplexitätsbarrieren“ mit sich.Einerseits wachsen Geodaten täglich milliardenfach, mit unterschiedlichen Typen, stark variierenden Auflösungen und einer großen Bandbreite an Zeiträumen. Darüber hinaus herrscht in einigen abgelegenen Gebieten Datenknappheit. Andererseits sind traditionelle Spezialmodelle oft auf einzelne Aufgaben beschränkt und haben Schwierigkeiten, Informationen aus mehreren Quellen zu integrieren. Dies führt zu geringer Analyseeffizienz und schwacher Generalisierung, wodurch sie den Anforderungen komplexer Szenarien wie überregionaler Katastrophenhilfe und multifaktorieller Gesundheitsprognosen nicht gerecht werden können. Obwohl GeoAI zu einem „generalisierten Grundlagenmodell“ übergegangen ist, mangelt es bestehenden Lösungen noch immer an multimodaler Zusammenarbeit und universeller Zugänglichkeit.
Als Reaktion auf die oben genannten HerausforderungenGoogle Research hat sich mit Google X, Google Cloud und anderen Teams zusammengetan, um das georäumliche intelligente Argumentationssystem „Earth AI“ vorzuschlagen.Das System erstellt eine Familie interoperabler GeoAI-Modelle und entwickelt spezialisierte Basismodelle rund um drei Kerndatentypen: Bilddaten, Bevölkerung und Umwelt. Diese Modelle passen sich präzise an analytische Anforderungen in verschiedenen Dimensionen an. Durch den Gemini-basierten Inferenzagenten ermöglicht das System eine tiefgreifende Zusammenarbeit mehrerer Modelle und mehrstufiges gemeinsames Denken. Durch die Interaktion mit natürlicher Sprache senkt das System die Einstiegshürde deutlich und ermöglicht selbst Laien die Durchführung fachübergreifender Echtzeitanalysen. So wird die Erdsystemforschung von der „Datensammlung“ hin zu „umsetzbaren globalen Erkenntnissen“ vorangetrieben.
Die entsprechenden Forschungsergebnisse tragen den Titel „Earth AI: Unlocking Geospatial Insights with Foundation Models and Cross-Modal Reasoning“ und der Vorabdruck wurde auf arXiv veröffentlicht.
Forschungshighlights:
* Das in dieser Forschung eingesetzte Fernerkundungsmodell erzielte Spitzenergebnisse bei Aufgaben wie der Objekterkennung mit offenem Vokabular und dem Zero-Shot-Cross-Modal-Retrieval. Darüber hinaus wurde das Populationsdynamikmodell unabhängig validiert, um reale Anwendungen im Einzelhandel und im öffentlichen Gesundheitswesen effektiv zu verbessern, und wurde erweitert, um die Einbettung von Zeitreihen mit monatlicher Granularität zu unterstützen.
* Diese Forschung integriert Bild-, demografische und Umweltmodelle, um ein leistungsfähigeres multimodales Vorhersage-Framework zu entwickeln. Empirische Belege zeigen, dass dieser Fusionsansatz die Ergebnisse jeder einzelnen Modalitätsanalyse bei mehreren realen Klassifizierungs- und Vorhersageaufgaben deutlich übertrifft.
* Diese Forschung implementiert agentenbasiertes komplexes georäumliches Denken: Der von Gemini gesteuerte Denkagent kann komplexe geografische Abfragen automatisch dekonstruieren, Multimodell-Tools versenden, transparente Denkketten anzeigen und letztendlich kohärente Schlussfolgerungen generieren.

Papieradresse:
https://doi.org/10.48550/arXiv.2510.18318
Folgen Sie dem offiziellen Konto und antworten Sie mit „Earth AI“, um das vollständige PDF zu erhalten
Earth AI Data System: Schaffung der Grundlage für modalübergreifende Geodatenanalysen
Die Trainingsgrundlage von Earth AI basiert auf drei Arten professioneller Geodatensätze für die Erdsystemanalyse und unterstützt eine detaillierte Interpretation von Bildern, Bevölkerung und Umwelt.
Im Hinblick auf die Bilddatenverarbeitung integriert das System mehrere groß angelegte Fernerkundungsdatensätze.RS-Landmarks enthält 18 Millionen Satelliten- und Luftbilder mit hochwertigen Textbeschreibungen; RS-WebLI nutzt Klassifikatoren, um über 3 Millionen offene Fernerkundungsbilder aus dem Internet zu filtern, mit dem Potenzial, auf Hunderte von Milliarden zu skalieren; und RS-Global bietet 30 Millionen Bilder globaler Landmassen mit Auflösungen von 0,1 bis 10 Metern aus dem Zeitraum von 2003 bis 2022. Zusammen bilden diese Datensätze die Datengrundlage für die Entwicklung und Optimierung fernerkundungsspezifischer Modelle wie Vision-Language-Modelle, Objekterkennung mit offenem Vokabular, Few-Shot-Learning und vortrainierte Backbone-Modelle.
Im Hinblick auf die Analyse der BevölkerungsdynamikDer Datensatz integriert drei Arten von Informationen umfassend: gebaute Umwelt, natürliche Elemente und menschliches Verhalten, und nutzt Graph-Neural-Network-Technologie zur Generierung einheitlicher regionaler Einbettungen. Das System konnte auf Grundlage der ursprünglichen Einjahresdaten für die USA zwei wichtige Erweiterungen erzielen: In der räumlichen Dimension wurde die Abdeckung auf 17 Länder, darunter Australien, Brasilien und Indien, erweitert, und die Suchsemantik wurde durch Wissensgraphen angepasst, um die sprach- und länderübergreifende Mustererkennung zu verbessern. Die relevanten statischen Einbettungen wurden für die epidemiologische Modellierungsforschung geöffnet; in der zeitlichen Dimension wurde eine monatliche dynamische Einbettungssequenz von Juli 2023 bis heute erstellt. Das experimentelle Kennzeichnungssystem deckt ein breites Spektrum von Indikatoren wie Gesundheit, Sozioökonomie und Umwelt ab und integriert epidemiologische monatliche Besuchsdaten auf Kreisebene von der Yale PopHIVE-Plattform. Die europäische Regionalbewertung kombiniert zudem NUTS-Level-3-Daten des Europäischen Statistischen Amtes.
Umweltdaten integrieren drei Arten von Informationsquellen: Wetter, Klima und Naturkatastrophen. Es bietet stündliche Wettervorhersagen für 240 Stunden und tägliche 10-Tage-Vorhersagen auf der Grundlage von Beobachtungen aus mehreren Quellen und Modellen des maschinellen Lernens, Echtzeit-Überwachung und -Vorhersage von Überschwemmungen auf der Grundlage von Messdaten von Stationen sowie ein experimentelles Zyklonvorhersagesystem auf der Grundlage zufälliger neuronaler Netzwerke, das 50 mögliche Pfade generiert und Intensität, Windkreise und Landepunkte 15 Tage im Voraus vorhersagen kann.
Diese strukturierten und standardisierten Datensätze unterstützen nicht nur unabhängige Analysen in verschiedenen Bereichen, sondern ermöglichen auch eine tiefgreifende modalübergreifende Zusammenarbeit durch Gemini-gesteuerte Argumentationsagenten.Dieses System ermöglicht End-to-End-Analysen, von der komplexen Abfrageanalyse in natürlicher Sprache bis hin zur Informationsfusion aus mehreren Quellen. Darüber hinaus schafft es eine solide Datengrundlage für nicht professionelle Benutzer, die über natürliche Sprache oder Kartenschnittstellen direkt auf komplexe Geodatenanalysefunktionen zugreifen können.
Earth AI: Auf dem Weg zu einem multimodalen kollaborativen Rahmen für die intelligente Analyse von Erdsystemen
Earth AI ist eine Familie interoperabler georäumlicher künstlicher Intelligenzmodelle mit dem Kernziel eines „multimodalen kollaborativen Verständnisses des Erdsystems“.Durch die Koordination der Komponenten mithilfe maßgeschneiderter Agenten für georäumliches Denken und den Aufbau eines verallgemeinerten Systems auf Basis von Fundamentalmodellen (FMs) und Large Language Models (LLM) werden die Beschränkungen von Einzweckmodellen überwunden und umsetzbare Erkenntnisse für ein breites Spektrum planetarischer Probleme generiert. Das Kernsystem basiert auf „drei Arten von Fundamentalmodellen + Modellkollaborationsmechanismus + Agentenorchestrierung“.

Im Bereich der Bildanalyse konzentriert sich Earth AI auf Basismodelle der Fernerkundung. Das Hauptziel besteht darin, die beiden wichtigsten Herausforderungen bei Fernerkundungsdaten zu bewältigen: den Mangel an Anmerkungen und die besondere Bildverteilung. Zudem soll technische Unterstützung für ein effizientes semantisches Verständnis und eine zielgerichtete Analyse von Erdbeobachtungsszenarien bereitgestellt werden.Wie in der folgenden Abbildung dargestellt, extrahiert das Modell professionelle Luft- und Satellitenbilder aus Google Maps, kombiniert sie mit georäumlichen Metadaten wie Standorten und Sehenswürdigkeiten und speist sie in das Gemini-Modell ein. Anschließend generiert das Modell synthetische Bildunterschriften, die durch benutzerdefinierte Eingabeaufforderungen genau zum Bildinhalt passen. Es integriert außerdem WebLI-Fernerkundungsbilder mit Textanmerkungen sowie manuell beschriftete Fernerkundungssegmentierungs- und Objekterkennungsdatensätze. Diese Daten aus mehreren Quellen bieten hochwertige Beispielunterstützung für das Vortraining dreier Kernmodelle: den vortrainierten ViT Encoder, das Vision-Language Model (VLM) und das Open Vocabulary Object Detection Model (OVD).

Dabei wird das visuelle Sprachmodell anhand eines benutzerdefinierten Datensatzes trainiert und durch Optimierung der Merkmalszuordnung zwischen Bildern und Text ein einheitlicher semantischer Verständnisraum erstellt. Das Objekterkennungsmodell mit offenem Vokabular verwendet eine verbesserte Transformer-Architektur, bei der Bild- und Textmerkmale jeweils von zwei unabhängigen Modulen verarbeitet werden. Der visuelle Transformer-Encoder extrahiert zunächst durch selbstüberwachtes Lernen grundlegende Merkmale aus einer großen Bildmenge und verbessert dann durch gemeinsame Multitasking-Optimierung die Anpassungsfähigkeit und Leistung des Modells bei bestimmten Aufgaben. In der tatsächlichen Anwendungsverbindung verwendeten die Forscher die VLM- und OVD-Modelle direkt für ihre jeweiligen Klassifizierungs- (Klassifizierung), Erkennungs- (Erkennung) und Abrufaufgaben (Abruf) und optimierten den ViT-Encoder (Feinabstimmung), um die beste SOTA-Leistung bei nachgelagerten spezifischen Aufgaben zu erzielen.
Im Hinblick auf die Bevölkerungsanalyse basiert Earth AI auf dem Basismodell der Bevölkerungsdynamik, befolgt die Prinzipien der Informationsfusion aus mehreren Quellen und des Datenschutzes, integriert Daten zur gebauten Umwelt, zu natürlichen Bedingungen und zum menschlichen Verhalten und generiert einheitliche regionale Einbettungen durch Graph-Neural-Networks.
Um die Beschränkungen eines einzelnen Modells zu überwinden, wie in der folgenden Abbildung gezeigt,Earth AI verwendet „räumliche Ausrichtung + Darstellungsintegration“, um eine Zusammenarbeit mehrerer Modelle zu erreichen:Die Ergebnisse verschiedener Modelle werden einer einheitlichen geografischen Einheit zugeordnet und die Darstellungen zusammengeführt. So ergänzen beispielsweise die Bild-, Topografie- und Klimainformationen des AlphaEarth-Basismodells die Signale menschlicher Aktivitäten aus dem Bevölkerungsmodell und erstellen so ein umfassendes regionales Porträt. Das Modell arbeitet in zwei Phasen: Die erste Phase umfasst ein Offline-Training, bei dem kompakte regionale Einbettungen mithilfe georäumlicher Daten wie Karten, Suchtrends und Umweltbedingungen kodiert werden. Die zweite Phase nutzt vortrainierte Einbettungen zur dynamischen Feinabstimmung und unterstützt nachgelagerte Aufgaben wie Interpolation, Extrapolation, Superauflösung und Nowcasting.

Zur Lösung komplexer mehrstufiger Geodatenprobleme hat Earth AI den Gemini-basierten Geodaten-Reasoning-Agenten entwickelt. Dieser Agent basiert auf dem Google Agent Development Kit (ADK) und integriert allgemeine Reasoning-Funktionen mit vier professionellen Funktionen: Bildanalyse, Demografie, Umweltsimulation und raumzeitliche Modellierung. Er bietet außerdem unterstützende Tools für die Geodatenverarbeitung, Codegenerierung und den Datenzugriff auf Earth Engine.
Wie unten gezeigt,Seine Arbeit folgt der Kernlogik „Analysieren von Abfragen – Zerlegen von Aufgaben – Aufrufen von Tools – Synthetisieren von Ergebnissen“.Durch einen geschlossenen, iterativ optimierten Antwortprozess („Denken und Planen“ → Daten-/Modellinferenz/Modelltraining → Reflektieren und Wiederherstellen“) kann es drei Arten komplexer Abfragen verarbeiten: komplexe Tatsachenermittlung, analytische und relationale sowie prädiktive. Benutzer, die über natürliche Sprache oder eine Kartenschnittstelle interagieren, können sowohl einfache Fakten abfragen als auch komplexe Aufgaben erledigen, wie etwa die Verfolgung der Verteilung kritischer Einrichtungen während historischer Ereignisse und die Vorhersage von Gebieten mit hohem Risiko und sozialer Anfälligkeit. Dies unterstützt den Entscheidungsfindungsbedarf von der retrospektiven Analyse bis zur vorausschauenden Planung.

Erreichte SOTA-Leistung in mehreren öffentlichen Benchmarks und erreichte eine Verbesserung von 64% gegenüber Gemini 2.5 Pro.
Das experimentelle System von Earth AI ist auf drei Ebenen organisiert: Einzelmodellleistung, Multimodell-Zusammenarbeit und Agenten-Reasoning. Es evaluiert systematisch zwei grundlegende Modelle – Bild- und Bevölkerungsmodelle – sowie deren umfassende Leistung in integrierten Anwendungen und im georäumlichen Reasoning.
Während der Phase der Leistungsüberprüfung des einzelnen Modells zeigte das bildbasierte Modell eine herausragende Leistung bei mehreren Aufgaben. Das Vision-Language-Modell, das auf den Architekturen SigLIP2 und MaMMUT basiert, erreichte bei Zero-Shot-Klassifizierungs- und Textabrufaufgaben über mehrere öffentliche Benchmarks hinweg eine hochmoderne Leistung, wobei einige Metriken sogar mit allgemeinen Konversationsmodellen mit größeren Parametern vergleichbar waren. Das Modell zur offenen Vokabelerkennung erreichte Zero-Shot-Test-mAPs von 31,831 TP3T und 29,391 TP3T bei den DOTA- und DIOR-Datensätzen. Nach Few-Shot-Learning mit nur 30 Samples pro Klasse verbesserte sich mAP weiter auf über 531 TP3T und übertraf damit bestehende Methoden deutlich. Das vortrainierte Backbone-Modell erreichte im Vergleich zum ImageNet-Vortrainings-Basiswert eine durchschnittliche Verbesserung von 14,931 TP3T bei 13 nachgelagerten Aufgaben, die Klassifizierung, Erkennung und Segmentierung abdecken, und stellte neue Leistungsrekorde bei Aufgaben wie FMOW-Klassifizierung und FLAIR-Segmentierung auf.
Das Populationsdynamik-Basismodell zeigt eine starke Leistung bei räumlicher Interpolation und zeitlichen Vorhersageaufgaben. Wie in der folgenden Abbildung dargestellt,Seine globale Einbettung gewährleistet eine stabile R²-Leistung bei der Vorhersage fehlender Variablen in der Region 20% und bestätigt eine gute Übertragbarkeit in länderübergreifenden Generalisierungstests.Basierend auf monatlichen dynamischen Einbettungen, die ab Juli 2023 erstellt wurden, war der mittlere absolute Fehler in extrapolierten Prognosen von COVID-19- und Grippe-Notaufnahmebesuchen deutlich geringer als bei statischen Einbettungen, mit einem besonders großen Vorteil während der Spitzenausbrüche im Herbst und Winter. Die Validierung durch Dritte bestätigte die Anwendbarkeit und Robustheit des Modells in realen Szenarien.

In einem kollaborativen Experiment mit mehreren Modellen konnte die Genauigkeit der Vorhersagen durch die Integration der Bevölkerungsdynamik in das AlphaEarth-Basismodell deutlich verbessert werden.Bei der Vorhersage von FEMA-Katastrophenrisikowerten für US-Volkszählungsbezirke erreichte das Fusionsmodell eine durchschnittliche R²-Verbesserung von 111 TP3T im Vergleich zu Einzelmodellen. Bei der Vorhersage von 21 CDC-Gesundheitsindikatoren übertraf es das Bevölkerungsmodell und das AlphaEarth-Modell allein um 71 TP3T bzw. 431 TP3T. Darüber hinaus bewies das System die Fähigkeit, Zyklonvorhersagen mit Bevölkerungsmodellen zu kombinieren, um Sachschäden durch Hurrikane vorherzusagen, und mit Zeitreihenprognosen und Wettermodellen für die Cholera-Risikowarnung in der Demokratischen Republik Kongo zusammenzuarbeiten. Dabei erreichte es eine RMSE-Reduktion von 341 TP3T im Vergleich zum Basismodell.
Die Fähigkeiten des Geospatial Reasoning Agents wurden anhand standardisierter Frage-Antwort-Sets und Krisenszenariotests bewertet. Im 100-Fragen-Test erreichte der Agent eine Gesamtpunktzahl von 0,82 und verbesserte sich damit um 641 TP3T gegenüber Gemini 2.5 Pro bzw. 1101 TP3T gegenüber Flash. Besonders stark war die Leistung des Agenten bei analytischen Denkaufgaben. In Tests mit zehn Krisenreaktionsszenarien übertraf der Agent nach mehreren Runden iterativer Optimierung das Basissystem bei den Likert-Skalenwerten durchweg und demonstrierte damit seine Effektivität und Zuverlässigkeit bei der Bewältigung komplexer, mehrstufiger Geospatial Reasoning-Aufgaben.
Technologische Durchbrüche und Anwendungspraktiken der Geospatial Intelligence
Mit dem Fokus auf die Kerntechnologierichtung Earth AI arbeiten die weltweiten akademischen und industriellen Gemeinschaften zusammen, um die Geodatenintelligenz von der Algorithmusinnovation bis zur systematischen und szenariobasierten Implementierung voranzutreiben und schrittweise ein mehrstufiges, hoch koordiniertes Technologie-Ökosystem aufzubauen.
An vorderster Front der Forschung hat sich das einheitliche Verständnis mehrerer Modalitäten als entscheidender Durchbruch erwiesen. Mit dem EarthMind-Framework, das gemeinsam von der Universität Trient (Italien), der Technischen Universität München (Deutschland), der Technischen Universität Berlin (Deutschland) und dem Forschungsinstitut INSAIT in Bulgarien entwickelt wurde, haben Forschungsteams ein einheitliches, multigranulares und multisensorisches Verständnissystem für Fernerkundungsszenarien aufgebaut.
Titel des Papiers:EarthMind: Auf dem Weg zur multigranularen und multisensorischen Erdbeobachtung mit großen multimodalen Modellen
Link zum Artikel:https://doi.org/10.48550/arXiv.2506.01667
Darüber hinaus hat World Labs, gegründet von Professor Fei-Fei Li von der Stanford University, kürzlich eine eingeschränkte Betaversion seines räumlichen Intelligenzmodells Marble über die X-Plattform herausgebracht. Dieses Modell konzentriert sich auf die Technologie zur 3D-Weltgenerierung und erstellt persistente, frei erkundbare 3D-Szenen aus einem einzigen Bild oder einer Textaufforderung.
Im Hinblick auf industrielle Anwendungen integrieren Unternehmen Geodaten aktiv in ihre Kerngeschäftssysteme. NVIDIA und UAE G42 haben bei der Entwicklung der Earth-2-Plattform zusammengearbeitet.Durch die Nutzung generativer KI zum Aufbau eines hochpräzisen Wettervorhersagesystems und die Zusammenarbeit des globalen Modells FourCastNet mit der Downscaling-Architektur CorrDiff kann eine verfeinerte Ausgabe von landesweiten Vorhersagen auf 2 Kilometern bis hin zu Wettervorhersagen auf Stadtebene auf 200 Meter erreicht werden. Dabei werden herkömmliche Simulationen, die mehrere Stunden oder Minuten dauern, komprimiert, wodurch die Warn- und Reaktionsmöglichkeiten bei Extremwetter erheblich verbessert werden. Ein gemeinsam von IBM und der NASA veröffentlichtes Open-Source-Grundmodell für georäumliche KI.Dieses Modell, das mit großflächigen Satellitendaten des Harmonized Landsat Sentinel-2-Projekts der NASA trainiert wurde und ein gemeinsames Optimierungsframework für mehrere Aufgaben verwendet, unterstützt eine Vielzahl von Anwendungen, darunter die Überwachung des Klimawandels, die dynamische Verfolgung von Abholzung und die Schätzung von Ernteerträgen. Im Hinblick auf die Modelloptimierung wurde nicht nur die Trainingseffizienz um 15% verbessert, sondern auch eine Leistungssteigerung von 15% mit nur der Hälfte der annotierten Daten erreicht.
Von akademischen Innovationen bis hin zur industriellen Praxis wird Geointelligenz in beispielloser Tiefe und Breite in das menschliche Verständnis und die Entscheidungsfindung in Bezug auf das Erdsystem integriert. Mit anhaltenden Durchbrüchen in Schlüsseltechnologien wie multimodaler Fusion, skalenübergreifender Modellierung und Agentenkollaboration wird erwartet, dass analytische Rahmen wie Earth AI eine noch zentralere Rolle bei der Bewältigung planetarischer Herausforderungen wie Klimareaktion, Katastrophenschutz und -kontrolle sowie Ressourcenmanagement spielen und die koordinierte Entwicklung von Wissenschaft und gesellschaftlichem Management vorantreiben.
Referenzlinks:
1. https://mp.weixin.qq.com/s/XeZdQbMvvnQId6PLWM7K1A
2. https://mp.weixin.qq.com/s/WdIq1SToGa3jmVlbGZsy8w
3. https://mp.weixin.qq.com/s/C3XqmCooqwch1JyAXCnYlQ
4. https://mp.weixin.qq.com/s/ix0r3lwiqE18gYxvJupr0g