视觉语言地理基础模型(Vision-Language Geo-Foundation Models,简称 VLGFM)是一种专门设计用于处理和分析地球观测数据的人工智能模型,它结合了视觉和语言信息,以提高对地理空间数据的理解和分析能力。 VLGFM 能够执行多种任务,包括图像描述、图像-文本检索、视觉问题回答和视觉定位等多模态任务。
VLGFM 的概念首次在论文「Towards Vision-Language Geo-Foundation Model: A Survey」中被提出,这篇综述论文由南洋理工大学、商汤科技、上海 AI Lab 和上海交通大学的研究人员合作完成,并在 2024 年发表。这篇论文是关于 VLGFM 的首篇文献综述,它讨论了 VLGFM 与视觉地理基础模型以及视觉语言专有模型的区别,并总结了现有 VLGFM 的模型架构和常用的数据集。