HyperAI

IBM Research Und Andere Haben Den Bislang Größten Befehlsdatensatz Für Fernerkundung Entwickelt Und Ein Speziell Für Erdbeobachtungsdaten Entwickeltes VLM Vorgeschlagen, Das Für CVPR 2025 Ausgewählt Wurde.

特色图像

Der Bereich der Erdbeobachtung durchläuft eine revolutionäre Entwicklungswelle und gewinnt täglich an Bedeutung. Aus der Perspektive der Branchengröße zeigte der Bericht des Weltwirtschaftsforums im Mai 2024, dassSein potenzieller wirtschaftlicher Wert wird von 266 Milliarden Dollar im Jahr 2023 auf über 700 Milliarden Dollar im Jahr 2030 steigen.Viele Länder und internationale Organisationen legen seit langem Wert auf die strategische Bedeutung der Erdbeobachtung und entwickeln entsprechende Pläne.

Allerdings hat die Erdbeobachtungstechnologie mit der Verarbeitung komplexer Daten zu kämpfen. Herkömmliche Systeme zur Analyse von Satellitenbildern verarbeiten Fernerkundungsdaten aus mehreren Quellen nur langsam und weisen Mängel bei der Analyse des geografischen Raums und der spektralen Dimensionen auf. Bei Vision-Language-Modellen (VLMs) wurden im Bereich der allgemeinen visuellen Interpretation erhebliche Fortschritte erzielt, bei der Verarbeitung von Erdbeobachtungsdaten sind allgemeine Modelle jedoch schwierig zu handhaben.Da die einzigartigen georäumlichen, spektralen und zeitlichen Dimensionen dieser Daten höhere Anforderungen an die Modelle stellen, sind selbst fortschrittliche proprietäre Modelle bei der Verarbeitung spezifischer Fernerkundungsdaten weniger genau.

Zuvor wurden VLMs für bestimmte Bereiche der Erdbeobachtung wie RS-GPT und GeoChat eingeführt, sie weisen jedoch Einschränkungen bei der hochauflösenden Bildverarbeitung, der multispektralen und multitemporalen Analyse usw. auf. In diesem Zusammenhang sind IBM Research, die Emirates University of Artificial Intelligence, die Australian National University, die Universität Linköping in Schweden usw. zu nennen.Gemeinsam wurde EarthDial eingeführt, ein dialogbasiertes VLM, das Fernerkundungsbilder mit mehreren Auflösungen, mehreren Spektralen und mehreren Zeiträumen einheitlich verarbeiten kann und komplexe multisensorische Erdbeobachtungen auf innovative Weise in interaktive Dialoge in natürlicher Sprache umwandelt, um eine Vielzahl von Fernerkundungsaufgaben zu unterstützen.Das Forschungsteam erstellte einen riesigen Datensatz mit mehr als 11,11 Millionen Befehlspaaren, der eine Vielzahl multispektraler Modalitäten abdeckt und eine solide Grundlage für die leistungsstarken Fähigkeiten des Modells legt.

Die entsprechenden Forschungsergebnisse mit dem Titel „EarthDial: Turning Multi-sensory Earth Observations to Interactive Dialogues“ wurden für CVPR 2025 ausgewählt.

Forschungshighlights:

* EarthDial ist ein dialogbasiertes VLM, das multispektrale, multitemporale und multiauflösende Fernerkundungsbilder verarbeiten kann, um den Anforderungen verschiedener Erdbeobachtungsmissionen gerecht zu werden.

* Diese Studie stellte den größten Feinabstimmungsdatensatz für Fernerkundungsanweisungen vor, der mehr als 11,11 Millionen Anweisungspaare enthält und mehrere Modalitäten abdeckt, wodurch das Verständnis und die Generalisierungsfähigkeiten des Modells erheblich verbessert werden.

* Experimente zeigen, dass EarthDial bei 44 nachgelagerten Erdbeobachtungsaufgaben gute Leistungen erbringt und eine höhere Genauigkeit und bessere Generalisierungsfähigkeit aufweist als vorhandene domänenspezifische VLMs.


Papieradresse:

https://go.hyper.ai/ZtmPG

Das Open-Source-Projekt „awesome-ai4s“ vereint mehr als 100 AI4S-Papierinterpretationen und stellt außerdem umfangreiche Datensätze und Tools bereit:

https://github.com/hyperai/awesome-ai4s

Datensatz: Über 10 Millionen Anweisungen, die mehrere Auflösungen und geografische Standortinformationen abdecken

Im Bereich der Erdbeobachtungstechnologie stellen die Komplexität der Datendimensionen und die Vielfalt der Missionsszenarien große Herausforderungen an die Generalisierungsfähigkeit von Modellen dar. Um den Leistungsengpass traditioneller Modelle bei der Verarbeitung multimodaler, multiauflösender und multitemporaler Fernerkundungsdaten zu überwinden,EarthDial hat speziell für den Bereich der Fernerkundung einen umfangreichen Datensatz namens EarthDial-Instruct erstellt, der mehr als 11 Millionen professionelle Anweisungspaare enthält.Die Vortrainingsstrategie dieses Datensatzes konzentriert sich auf den Aufbau von Generalisierungsfähigkeiten über Modalitäten, Auflösungen und Zeiträume hinweg. Durch die Auswahl hochwertiger Frage-Antwort-Paare von professionellen Plattformen wie SkyScript und SatlasPretrain integriert es heterogene Fernerkundungsdaten aus mehreren Quellen wie optische Bilder von Sentinel-2, Daten des Synthetic Aperture Radar von Sentinel-1, Luftbilder von NAIP und Landsat-Satellitenbilder und konfiguriert gleichzeitig geografische Beschriftungsinformationen.

Im Hinblick auf die DatenqualitätskontrolleDas Forschungsteam implementierte einen dreifachen Filtermechanismus:Zunächst werden spärliche Stichproben mit weniger als 3 Beschriftungsfeldern entfernt. Zweitens werden ungültige Daten auf Grundlage der spektralen Helligkeitswertverteilung und der geografischen Abdeckung ausgeschlossen. Abschließend werden mit Hilfe des InternLM-XComposer2-Modells automatisch standardisierte Frage-Antwort-Anweisungspaare entsprechend der bildgeographischen Elemente generiert. Dieses Datenbereinigungssystem legt eine solide Grundlage für das Modell, um die Unterschiede in den spektralen Merkmalen, die räumlichen Auflösungsmerkmale und die zeitlichen Reflexionsänderungsgesetze von Fernerkundungsdaten zu verstehen.

Mit Blick auf die Anforderungen praktischer Anwendungen hat EarthDial ein verfeinertes Anweisungssystem für nachgelagerte Aufgaben entwickelt.Deckt 10 Kernaufgaben, 6 visuelle Modalitäten und 2 Phasentypen ab.

Bei der SzenenklassifizierungsaufgabeDas Forschungsteam führte den BigEarthNet-Datensatz ein, um komplexe Probleme der Oberflächenbedeckungsklassifizierung zu bewältigen, nutzte den multitemporalen FMoW-Datensatz, um eine dynamische Identifizierung von Landnutzungsänderungen zu realisieren, und kombinierte lokale Klimazonendaten mit dem TreeSatAI-Zeitreihendatensatz, um eine Klassifizierung des städtischen Wärmeinseleffekts und die Identifizierung der Waldbaumartenverteilung durchzuführen, wodurch das Problem der unzureichenden Generalisierungsfähigkeit traditioneller Modelle in Fachbereichen mit kleinen Stichproben effektiv gelöst wurde.

Bei der ZielerkennungsaufgabeDas Forschungsteam hat ein Anweisungssystem entwickelt, das drei Arten von Beschriftungen umfasst: Referenz, Identifikation und Positionierung, das multimodale Bilder wie optische, SAR- und Infrarotbilder abdeckt und durch die Quantifizierung der wichtigsten Eigenschaften des Ziels eine präzise räumliche Positionierung und Merkmalsbeschreibung ermöglicht.

Visuelle Fragen- und Bildbeschreibungsaufgaben erstellen zusammengesetzte Befehlssätze durch die Integration von Datensätzen aus mehreren Quellen.Verbessern Sie die Aufgabenvielfalt und die Modellverarbeitungsleistung erheblich.Die Aufgabe zur Änderungserkennung verwendet eine Strategie zur Fusion mehrerer Datensätze.In Kombination mit der manuellen Sequenzanalyse wurde ein standardisierter Beschreibungsrahmen erstellt.

Als Reaktion auf die besonderen Anforderungen der Methanfahnenerkennung entwickelte das Forschungsteam eine Gesprächsvorlage auf Grundlage des STARCOP-Datensatzes, um eine präzise Zielführung zu erreichen. Die Studie zum städtischen Wärmeinseleffekt invertierte wichtige thermische Indikatoren durch Bilddaten, erstellte ein regionales Klassifizierungsmodell und generierte Anweisungen zur thematischen Analyse. Das Katastrophenbewertungsmodul integrierte den xBD-Erdbebenkatastrophendatensatz und die QuakeSet-Erdbebensequenzdaten, um ein spezielles Anweisungssystem für die Analyse des Katastrophenniveaus und die Bewertung der Auswirkungen nach Erdbeben zu erstellen.

Interpretierbare Datenmodelle und Anwendungen von EarthDial

EarthDial: Ein spezielles Modell zur einheitlichen Verarbeitung von Fernerkundungsdaten mit mehreren Auflösungen, mehreren Spektralen und mehreren Zeiträumen

EarthDial kann flexibel für Aufgaben wie Klassifizierung, visuelle Lokalisierung und Änderungserkennung eingesetzt werden.Es basiert auf fortschrittlichen natürlichen Bild-Visual-Language-Modellen (VLMs).Durch mehrstufige Feinabstimmung werden die Fähigkeiten mit dem verbesserten InternVL als Architektur erweitert, um multispektrale und multitemporale Daten zu unterstützen.

Wie in der Abbildung unten gezeigt,Das Modell besteht aus drei Komponenten: Visual Encoder, MLP-Layer-Projektor und LLM.Der visuelle Encoder ist über MLP als Verbindungsblock mit LLM verbunden, um die visuellen Tags in den LLM-Raum abzubilden.

Gleichzeitig verfügt das Modell über ein Leichtbaudesign mit nur 4 Milliarden Parametern. Bei gleichzeitiger Gewährleistung eines effizienten Betriebs kann es mehrere Arten von Fernerkundungsdatensätzen empfangen und präzise Fernerkundungsdialoginhalte generieren. Unter anderem verwendet der visuelle Encoder das leichte InternViT-300M, das aus dem 6-Milliarden-Parameter-InternViT destilliert wurde, um leistungsstarke visuelle Kodierungsfunktionen sicherzustellen. das vortrainierte Phi-3-mini LLM verleiht dem Modell hervorragende Fähigkeiten zum Sprachverständnis und zur Sprachgenerierung; Der einfache MLP-Verbindungsblock schlägt effektiv eine Brücke zwischen dem visuellen und dem sprachlichen Raum.

Auch,Die Ergänzung um zwei Kernmodule, Adaptive High Resolution und Data Fusion, ist zum Schlüssel für die Verarbeitung komplexer Fernerkundungsdaten durch das Modell geworden.Das adaptive Hochauflösungsmodul greift auf die dynamische Strategie von InternVL 1.5 zurück. Durch die Aufteilung des Bilds in Kacheln und die Generierung von Miniaturansichten bleiben nicht nur die Details des hochauflösenden Bilds erhalten, sondern es wird auch ein globales Verständnis der Szene ermöglicht. Das Datenfusionsmodul verwendet Strategien wie Kanalverarbeitung, Merkmalsaggregation und Dimensionsreduzierung für multispektrale, SAR- und andere Daten, um visuelle und Textmerkmale tiefgreifend zu verschmelzen und so die Leistung des Modells bei komplexen Aufgaben erheblich zu verbessern.

EarthDial-Architektur

Während der Trainingsphase verwendet EarthDial eine dreistufige Strategie, um die Leistung schrittweise zu verbessern:

Die erste Phase ist das RS-Konversationsvortraining.In dieser Phase werden 7,6 Millionen Bild-Text-Paare aus Datensätzen wie Satlas und Skyscript zum Vortraining verwendet, um die Fähigkeiten zur Bild- und Textausrichtung zu etablieren.

Die zweite Stufe ist RS RGB und zeitliche Feinabstimmung.In dieser Phase werden die RGB- und Zeitdaten fein abgestimmt und die MLP- und LLM-Ebenen optimiert.

Die dritte Stufe ist RS Multispectral und SAR Finetuning.Diese Phase wird auf multispektrale und SAR-Daten erweitert, wodurch eine Feinabstimmung der MLP- und LLM-Schichten erfolgt.

Diese drei Schulungsphasen sind aufeinander aufbauend und verleihen EarthDial leistungsstarke Fähigkeiten zur Analyse von Erdbeobachtungsdaten und zur Aufgabenausführung, was zu innovativen Durchbrüchen in Bereichen wie Umweltüberwachung und Katastrophenhilfe führt.

EarthDial-Schulungsstrategie

Experimentelle Ergebnisse: Mehrere Aufgaben übertreffen bestehende Modelle und schneiden bei der Verarbeitung von Zweiphasen- und Mehrphasensequenzanalysen gut ab

In Experimenten zeigte das EarthDial-Modell in einer Vielzahl von Anwendungsszenarien eine hervorragende Leistung. Es deckt Bilddaten wie RGB, Multispektral-, SAR-, Infrarot- und Wärmebildgebung ab und bewertet Aufgaben wie Szenenklassifizierung, Objekterkennung, visuelle Frage- und Antwortsuche (VQA), Bildbeschreibung, Änderungserkennung und Methanfahnenerkennung.

Bei der SzenenklassifizierungsaufgabeDurch die Zero-Shot-Auswertung verbessert EarthDial die Leistung vorhandener VLMs auf mehreren Datensätzen erheblich, insbesondere auf den Testsätzen fMoW und xBD.

Bei der ZielerkennungsaufgabeEarthDial übertrifft Modelle wie GPT-4o, InternVL2-4B und GeoChat in den drei Unteraufgaben Referenzzielerkennung, Gebietsbeschreibung und Standortbeschreibung und schneidet besonders gut bei Standortbeschreibungsaufgaben und SAR-Bilddatensätzen ab.

Für Bildbeschreibungs- und VQA-Aufgaben,EarthDial übertrifft bestehende Modelle bei relevanten Datensätzen. Bei der VQA-Aufgabe wird EarthDial mithilfe der Datensätze RSVQA-LRBEN und RSVQA-HRBEN bewertet und hat in den meisten Kategorien einen Vorteil.

Bei der ÄnderungserkennungsaufgabeEarthDial verarbeitet zeitliche Daten effektiv durch Datenfusionsstrategien und demonstriert leistungsstarke Funktionen zur Interpretation und Reaktion zeitlicher Daten.

Bei KatastropheneinschätzungsmissionenBasierend auf 8 Unteraufgaben des xBD-Datensatzes übertrifft EarthDial bestehende VLMs in Unteraufgaben wie dem Bildklassifizierungs-Testsatz 1 durchweg. Im QuakeSet-Datensatz erreichte EarthDial unter Verwendung von SAR-Bildern zur Erdbebenvorhersage eine Genauigkeit von 57,53% und übertraf damit GPT-4o.

Im Hinblick auf die multimodale DatenverarbeitungEarthDial verbessert die Leistung von GPT-4o bei der Klassifizierung und repräsentativen Objekterkennung von multispektralen, RGB-Infrarot- und SAR-Bildern erheblich und unterstreicht die Wirksamkeit seiner Multiband-Fusionsstrategie.

Im Urban Heat Island (UHI)-ExperimentEarthDial erreicht eine Genauigkeit von 56,77% und kann Temperaturtrends im Landsat8-Band erkennen, was besser ist als die 22,68% von GPT-4o.

Bei der Klassifizierung der MethanfahneMithilfe des STARCOP-Datensatzes erreichte EarthDial eine Genauigkeit von 77,09%, eine Verbesserung von 32,16% gegenüber GPT4o.

Die KI-Revolution in der Erdbeobachtung: ein Paradigmenwechsel von der Datensammlung zur intelligenten Entscheidungsfindung

Im Zuge der globalen digitalen Transformation führt die KI-Technologie zu tiefgreifenden Veränderungen im Bereich der Erdbeobachtung. Mit technologischen Durchbrüchen wie multimodalen Großmodellen und intelligenter Datenverarbeitung im Orbit hat sich in diesem Bereich die Transformation von der traditionellen Datenerfassung zu einem intelligenten geschlossenen Kreislaufsystem aus „Wahrnehmung, Erkenntnis und Entscheidungsfindung“ beschleunigt und ist zur zentralen Infrastruktur für die Unterstützung einer globalen nachhaltigen Entwicklung geworden.

Erstens führen technologische Durchbrüche dazu, dass die Branche von der passiven Aufzeichnung zur aktiven Intervention getrieben wird. Das gemeinsam von der Europäischen Weltraumorganisation und IBM entwickelte TerraMind-Modell integriert acht Arten heterogener Datenquellen.Es handelt sich um das weltweit erste multimodale Basismodell zur Erdbeobachtung.Seine Modal-Reasoning-Technologie vervollständigt auf intelligente Weise Daten bei der Überwachung von Methanlecks in der sibirischen Tundra, verbessert die Vorhersagegenauigkeit um 20% und reduziert den Rechenleistungsverbrauch um 50%; Im Überwachungsszenario des Amazonas-Regenwalds nutzt es generative Funktionen, um fehlende Bilder automatisch zu reparieren und eine Allwetterüberwachung zu erreichen.

Das Modell „Space Lingmou“ 3.0 des Space Information Innovation Research Institute der Chinesischen Akademie der Wissenschaften erstellt ein vollvernetztes Interpretationssystem mit zig Milliarden Parametern.Die Genauigkeit ist im Vergleich zum herkömmlichen Modell um 4-10% verbessert.Es wird auch auf Szenarien wie die ökologische Bewertung des neuen Gebiets Xiongan angewendet. Im Hinblick auf die intelligente Verarbeitung im Orbit hat die intelligente Aufrüstung der Satellitennutzlasten zu Durchbrüchen bei den Edge-Computing-Funktionen geführt. Der Satellit Φsat-2 der ESA verfügt über sechs KI-Anwendungsmodule, darunter ein Waldbrandüberwachungssystem, das Brandherde in Echtzeit erfasst, und Algorithmen zur schnellen Erkennung ökologischer Bedrohungen. Diese technologischen Durchbrüche tragen dazu bei, dass die Erdbeobachtung in Richtung Echtzeit-Entscheidungen voranschreitet.

Zweitens verfügt die KI-Technologie über ein breites Spektrum an Anwendungsszenarien im Bereich der Erdbeobachtung und deckt alle Bereiche von der Makroüberwachung bis zur Mikrogovernance ab. Im Hinblick auf Klima- und ökologische GovernanceTerraMind ist ein fortschrittliches KI-Modell zur Erdbeobachtung, das von der Europäischen Weltraumorganisation (ESA) und IBM Research Europe entwickelt wurde.Durch die Integration hyperspektraler Daten des Sentinel-Satelliten in Bodensensornetzwerke konnte bei der Überwachung sibirischer Erdgaspipelines eine Positionsgenauigkeit im Meterbereich erreicht werden, und die Genauigkeit der Leckagetrendvorhersage konnte um 30% gesteigert werden. Das Global Forest Watch 3.0-System von NASA und Google kombiniert KI und Drohneninspektionen.Erfolgreiche Identifizierung von 87% illegalen Abholzungsgebieten im Kongobecken,Bauen Sie einen starken „digitalen Zaun“ zum Schutz der tropischen Regenwälder.

* Link zum Artikel:

https://doi.org/10.1016/j.rse.2021.112470

Im Hinblick auf Katastrophenhilfe und Stadtplanung konnte das KI-Großmodell AIE-SEG der Alibaba Damo Academy zur Fernerkundung während des Erdbebens in der Türkei im Jahr 2024 innerhalb von drei Stunden die Bewertung der Gebäudeschäden im Katastrophengebiet abschließen.Die Effizienz ist 50-mal höher als bei der herkömmlichen manuellen Analyse;Das vom Team der Tsinghua-Universität entwickelte räumlich-zeitliche Vorhersagemodell simuliert die Bewegung des Luftstroms in städtischen Belüftungskorridoren und bietet so quantitative Entscheidungshilfen für die Stadtplanung Pekings. Im Bereich Landwirtschaft und Ressourcenmanagement wird Microsoft Project Premonition derzeit im indischen Andhra Pradesh als Pilotprojekt erprobt.KI-basierte Empfehlungen zur Präzisionsaussaat steigern die Ernteerträge um 301 TP3T pro Hektar.Bieten Sie Echtzeitdatenunterstützung für intelligente Landwirtschaft.

Und schließlich schreiten im Hinblick auf die ökologische Konstruktion die Zusammenarbeit zwischen Industrie, Universitäten und Forschung sowie die globale Governance im Bereich der Erdbeobachtung stetig voran, und die Konstruktion von Open-Source-Ökologien und Toolketten wird ständig verbessert. Zum Beispiel,Google Earth AI öffnet API-Schnittstelle,Helfen Sie globalen Entwicklern, auf intelligente Verarbeitungsfunktionen für Satellitendaten zuzugreifen und senken Sie die Schwelle für die Anwendung der Technologie. Die Initiative „AI for Good“ der Vereinten Nationen nutzt künstliche Intelligenz zur Bekämpfung von Naturkatastrophen, setzt sich für die Etablierung weltweit einheitlicher Standards zur Katastrophenbewertung ein und fördert die Dateninteroperabilität und technische Zusammenarbeit.

Dies zeigt, dass die KI-Technologie die Erdbeobachtung von der „passiven Aufzeichnung“ zur „aktiven Intervention“ vorantreibt. Durch die Integration von Technologien wie multimodalen Großmodellen, intelligenter Datenverarbeitung im Orbit und Quantencomputern dürfte die Erdbeobachtung künftig zum digitalen Eckpfeiler bei der Unterstützung globaler Themen wie CO2-Neutralität, Katastrophenvorsorge und -minderung sowie Ressourcenmanagement werden und ein neues Kapitel nachhaltiger Entwicklung in der symbiotischen Beziehung zwischen Mensch und Natur aufschlagen.

Referenzartikel:

1.https://www.thepaper.cn/newsDetail_forward_30704895

2.https://mp.weixin.qq.com/s/i_Ar0RJ7g32s1ckCq81P-Q

3.https://mp.weixin.qq.com/s/xpjJH8ECV-2P4e4XKoXU9Q

4.https://mp.weixin.qq.com/s/NLp3