2 个月前
EarthVQA:基于关系推理的遥感视觉问答实现可查询地球
Wang, Junjue ; Zheng, Zhuo ; Chen, Zihang ; Ma, Ailong ; Zhong, Yanfei

摘要
地球视觉研究通常关注从地理空间中提取物体的位置和类别,但忽视了物体之间关系的探索和综合推理。基于城市规划的需求,我们开发了一个多模态多任务视觉问答数据集(EarthVQA),以推进基于关系推理的判断、计数和综合分析。EarthVQA 数据集包含 6000 张图像、相应的语义掩码以及 208,593 个嵌入城乡治理需求的问答对。由于物体是复杂关系推理的基础,我们提出了一种语义对象感知框架(SOBA),以对象为中心的方式提升视觉问答性能。为了保留精细的空间位置和语义信息,SOBA 利用分割网络生成对象语义。对象引导的注意力机制通过伪掩码聚合对象内部特征,而双向交叉注意力则进一步分层次建模对象外部关系。为了优化对象计数,我们提出了一种数值差异损失函数,该函数动态添加差异惩罚,统一了分类和回归任务。实验结果表明,SOBA 在先进的通用方法和遥感方法中均表现出色。我们认为这一数据集和框架为地球视觉的复杂分析提供了一个强大的基准。项目页面位于 https://Junjue-Wang.github.io/homepage/EarthVQA。