HyperAI超神经

EarthMind:基于大型多模态模型的多粒度和多传感器地球观测

Yan Shu, Bin Ren, Zhitong Xiong, Danda Pani Paudel, Luc Van Gool, Begum Demir, Nicu Sebe, Paolo Rota
发布日期: 6/4/2025
EarthMind:基于大型多模态模型的多粒度和多传感器地球观测
摘要

大型多模态模型(LMMs)在各种视觉-语言任务中表现出色。然而,它们通常难以全面理解对环境监测和人类活动影响至关重要的地球观测(EO)数据。在这项工作中,我们介绍了EarthMind,这是一种新颖的视觉-语言框架,用于多粒度和多传感器的地球观测数据理解。EarthMind具有两个核心组件:(1) 空间注意力提示(Spatial Attention Prompting, SAP),通过重新分配大型语言模型(LLM)内的注意力来增强像素级理解;(2) 跨模态融合(Cross-modal Fusion),将异构模态对齐到共享空间,并根据信息密度自适应地重新加权标记以实现有效融合。为了促进多传感器融合评估,我们提出了EarthMind-Bench,这是一个包含超过2,000个人工标注的多传感器图像-问题对的综合基准测试集,涵盖了广泛的感知和推理任务。大量实验表明了EarthMind的有效性。它在EarthMind-Bench上实现了最先进的性能,尽管其规模仅为4B,但仍超过了GPT-4o。此外,EarthMind在多个公共地球观测基准测试集上也优于现有方法,展示了其在统一框架下处理多粒度和多传感器挑战的潜力。