HyperAIHyperAI

Command Palette

Search for a command to run...

RSRCC:通过检索增强最佳-N排序构建的遥感区域变化理解基准

Roie Kazoom Yotam Gigi George Leifman Tomer Shekel Genady Beryozkin

摘要

传统的变化检测技术主要识别变化发生的位置,但无法以自然语言解释具体发生了何种变化。现有的遥感变化描述(change captioning)数据集通常侧重于描述整体图像级别的差异,而细粒度的局部语义推理研究仍 largely unexplored(很大程度上未被探索)。为了弥补这一空白,我们推出了 RSRCC,这是一个新的遥感变化问答基准数据集,包含 12.6 万个问题,划分为 8.7 万个训练集样本、1.71 万个验证集样本和 2.2 万个测试集样本。与以往的数据集不同,RSRCC 围绕局部化、特定于变化的问答构建,要求模型对特定的语义变化进行推理。据我们所知,这是首个专为细粒度基于推理的监督任务设计的遥感变化问答基准。为了构建 RSRCC,我们引入了一种分层半监督数据策展(curation)pipeline,该 pipeline 将 Best-of-N ranking 作为关键的最终歧义消除阶段。具体而言,首先从语义分割 mask 中提取候选变化区域,然后利用图像-文本 embedding 模型进行初步筛选,最后通过结合检索增强(retrieval-augmented)的视觉-语言策展流程,并采用 Best-of-N ranking 进行最终验证。这一过程能够在保留具有语义意义的变化的同时,实现大规模过滤噪音和模糊候选项。该数据集已在 Hugging Face 开放,地址为 https://huggingface.co/datasets/google/RSRCC

一句话总结

RSRCC 是一个遥感区域变化理解基准,包含 126k 个问题,用于细粒度局部语义推理,通过分层半监督策展流程构建,利用检索增强视觉语言验证和 Best-of-N 排名来解决歧义并确保可扩展的高质量监督,用于变化问答。

核心贡献

  • 本文介绍了 RSRCC,这是一个新的遥感变化问答基准,包含 126k 个问题,旨在针对特定语义变化进行细粒度推理。与以往关注整体图像级别差异的数据集不同,该资源提供了本地化、特定变化的监督,分为训练、验证和测试实例。
  • 引入了一种分层半监督策展流程来构建数据集,利用分割掩码和图像 - 文本嵌入模型进行初始候选筛选。该过程最后通过检索增强的视觉语言策展阶段应用 Best-of-N 排名来解决歧义。
  • 采用视觉语言编码器来细化分割输出,而不是替换它们,用基于区域的语言补充机器可读的本地化。这种集成策略能够在解决密集掩码标注的成本和可扩展性限制的同时,保留语义上有意义的变化。

引言

变化检测识别多时相遥感图像之间的差异,以支持建筑物监测和灾害响应等应用。尽管深度学习模型推动了像素级分割的发展,但这些方法难以提供人类可读的解释,并且依赖昂贵的密集标注。作者利用视觉语言编码器来补充传统分割而不是替换它,以此解决这些差距。他们的方法将语义筛选集成到策展流程中以细化变化候选项,并用结构化语言为本地化奠定基础。

方法

作者提出了一种分层半监督策展流程,旨在构建高质量的遥感变化检测数据集。该框架在四个主要阶段运行:用于候选本地化的语义分割、用于区域提取的连通分量分析、图像 - 文本语义筛选,以及用于模糊情况的检索增强 Best-of-NNN 验证。

首先,使用基于 Transformer 的分割模型对候选变化区域进行本地化。该模型采用 ViT-L 编码器提取多尺度视觉特征 ϕ(I)\phi(\mathcal{I})ϕ(I),并使用轻量级 ViT-Lite 解码器将其映射到密集语义预测 SSS。为了处理类别不平衡,模型使用 Dice loss 进行训练。分割后,连通分量分析将差异掩码 D=I[MtMt+Δt]D = \mathbb{I}[M_t \neq M_{t+\Delta t}]D=I[Mt=Mt+Δt] 划分为不相交的区域。这些区域使用自适应阈值进行过滤,以去除噪声并保留结构上有意义的对象。参考框架图以了解初始分割和候选提取流程。

接下来,流程使用基于 SigLIP 的视觉语言编码器应用语义过滤。对于每个候选区域,编码器计算前后图像块的嵌入并与类别提示进行比较。如果预期类别未出现在具有足够相似度的前-kkk 预测中,则丢弃该候选项。对于编码器产生模糊证据的区域,例如当同一类别出现在两个时间步时,将调用第二阶段验证。该阶段利用检索增强的 Best-of-NNN 排名机制来解决不确定性。

Best-of-NNN 过程充当偏好引导的选择机制。冻结的生成器生成多个候选解释或掩码,然后由检索增强的偏好模型(Judge JϕJ_\phiJϕ)进行评分。该判断器以一组语义相似的检索示例 ER(q)\mathcal{E}_R(q)ER(q) 为条件以确保一致性。模型将每个假设 hih_ihi 评分为 ri=Jϕ(hiER(q))r_i = J_\phi(h_i \mid \mathcal{E}_R(q))ri=Jϕ(hiER(q)) 并应用决策规则以仅保留高置信度候选项。此工作流程在偏好引导选择过程图中说明。

最后,对于策展的变化实例,大型语言模型生成多样化的问答对。LLM 接收裁剪的视觉输入和验证的语义标签以生成封闭式、二元或开放式问题。此步骤确保语言多样性,同时将问题建立在已验证的语义变化上。从初始图像比较到最终验证输出的进展,包括尽管视觉相似但未检测到变化的情况,在验证逻辑图中描绘。

实验

该框架使用 LEVIR-CD 数据集和人类标注者进行评估,以验证多个流程阶段的语义一致性和变化检测能力。定性分析表明,该方法成功识别了现有地面真实标注中常被忽略的细粒度结构变化,同时与基线模型相比实现了更好的人类一致性。额外实验证实了过滤机制对随机噪声的鲁棒性,并确立与 SigLIP 的余弦相似度为语义检索对齐的最佳策略。

数据按对象类型对检测到的变化进行分类,显示结构和自然元素主导分布。建筑物占实例的大多数,树木形成第二大群体,而专用基础设施特征则少见得多。建筑物是最普遍的变化类别。植被如树木是第二频繁的类别。楼梯和轨道等类别代表最小的变化部分。

作者使用二元和开放式问题格式评估框架,以评估语义一致性和事实准确性。结果表明,模型在多项选择题上实现了最高性能,二元任务也显示出很强的可靠性。在所有格式中,系统在识别未发生变化实例方面的准确性高于实际变化。与是/否和开放式格式相比,多项选择题实现了最高的总体性能分数。模型在所有问题类型中在“无变化”实例上的表现始终优于“变化”实例。与二元问题格式相比,开放式响应在变化和无变化场景之间显示出显著更大的性能差距。

该表展示了各种大型语言模型在不同问题类型和评估指标下的基线基准性能。结果表明,模型在评估变化案例时通常比无变化案例获得更高的性能分数。在测试的模型中,Gemini-2.5-Pro 变体在大多数指标上相对于 Flash 和 Gemma 变体表现出更优越的性能。模型在所有指标上始终显示变化检测的分数高于无变化识别。对于每个测试的模型,二元是/否问题的准确率高于多项选择题。Gemini-2.5-Pro 模型实现了比 Gemini-2.5-Flash 和 Gemma 变体更高的总体性能分数。

作者评估了各种数据集创建流程和基线模型之间的人类一致性,以评估语义一致性。提出的完整流程达到了最高的一致性水平,显著优于隔离特定组件(如编码或分割)的消融版本。基线大型语言模型显示出较低的一致性分数,随着少样本提示而有所改善,但未达到完整系统的性能。完整流程产生了最高的人类一致性,确认了每个阶段的互补作用。仅依赖编码或分割的消融流程导致一致性率显著降低。基线模型与提出的方法相比表现出性能差距,少样本设置通常优于零样本配置。

作者分析了其无监督发现流程的过滤行为,该流程采用图像 - 文本编码器后接 LLM 判断器。编码器最初丢弃了由分割生成的大多数候选区域。LLM 判断器随后评估剩余区域,仅接受一小部分作为有效的伪标签,而丢弃其余部分。图像 - 文本编码器拒绝了大多数初始候选区域。LLM 判断器仅接受转发区域的一小部分作为有效的伪标签。大多数由 LLM 评估的区域最终被作为虚假或低置信度检测而丢弃。

实验使用二元、多项选择和开放式问题格式评估语义一致性和事实准确性,数据以结构和自然元素为主。研究结果表明,提出的完整流程实现了最高的人类一致性并优于基线模型,系统在识别未发生变化实例方面表现出特别强的能力。此外,无监督发现过程利用严格的过滤机制,其中图像 - 文本编码器和 LLM 判断器均丢弃大多数候选区域以确保有效的伪标签。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供