HyperAI超神经

EarthDial:将多感官地球观测转化为互动对话

Sagar Soni, Akshay Dudhane, Hiyam Debary, Mustansar Fiaz, Muhammad Akhtar Munir, Muhammad Sohail Danish, Paolo Fraccaro, Campbell D Watson, Levente J Klein, Fahad Shahbaz Khan, Salman Khan
发布日期: 4/28/2025
EarthDial:将多感官地球观测转化为互动对话
摘要

通过交互式视觉语言模型 (VLM) 自动分析海量地球观测数据,可以为环境监测、灾害响应和资源管理带来新的机遇。现有的通用 VLM 在遥感数据方面表现不佳,而近期的地理空间 VLM 仍然局限于固定分辨率和少数传感器模态。本文介绍了 EarthDial,这是一款专为地球观测 (EO) 数据设计的对话助手,可将复杂的多感知地球观测数据转化为交互式自然语言对话。EarthDial 支持多光谱、多时相和多分辨率影像,可执行各种遥感任务,包括分类、检测、字幕制作、问答、视觉推理和视觉基础构建。为此,我们引入了一个庞大的指令调优数据集,其中包含超过 1111 万个指令对,涵盖 RGB、合成孔径雷达 (SAR) 以及近红外 (NIR) 和红外等多光谱模态。此外,EarthDial 还可以处理双时间和多时间序列分析,适用于变化检测等应用。我们在 44 个下游数据集上进行的大量实验结果表明,EarthDial 的性能优于现有的通用模型和特定领域模型,在各种 EO 任务中实现了更佳的泛化能力。我们的源代码和预训练模型位于此 https URL。