Visuell-linguistisches Geographie-Grundmodell (VLGFM)
Vision-Language Geo-Foundation Models (VLGFM) ist ein künstliches Intelligenzmodell, das speziell für die Verarbeitung und Analyse von Erdbeobachtungsdaten entwickelt wurde. Es kombiniert visuelle und sprachliche Informationen, um das Verständnis und die Analyse georäumlicher Daten zu verbessern. VLGFM kann eine Vielzahl von Aufgaben ausführen, darunter multimodale Aufgaben wie Bildbeschreibung, Bild-Text-Abruf, visuelle Beantwortung von Fragen und visuelle Lokalisierung.
Das Konzept des VLGFM wurde erstmals in der ArbeitAuf dem Weg zum Vision-Language Geo-Foundation-Modell: Eine Umfrage" wurde in einem Übersichtsartikel vorgeschlagen, der gemeinsam von Forschern der Nanyang Technological University, SenseTime, Shanghai AI Lab und der Shanghai Jiao Tong University erstellt und 2024 veröffentlicht wurde. Dieser Artikel ist die erste Literaturübersicht zu VLGFM. Er erörtert die Unterschiede zwischen VLGFM und visuellen geografischen Modellen sowie visuellen sprachspezifischen Modellen und fasst die Modellarchitekturen und häufig verwendeten Datensätze bestehender VLGFM zusammen.