Command Palette
Search for a command to run...
一键部署多时相地球观测遥感模型 Prithvi-EO-2.0
摘要
一句话总结
TimeSenCLIP 是一种轻量级视觉-语言模型,通过跨视角时序对比框架,将多光谱 Sentinel-2 时间序列与带地理标签的地面影像进行对齐,无需文本标注。该模型优先考虑光谱和时序信号而非空间上下文,从而在土地覆盖、土地利用、生境制图和作物分类任务中实现零样本分类。
核心贡献
- 本文提出 TimeSenCLIP,一种用于遥感时间序列的轻量级视觉-语言模型,通过优先考虑光谱和时序动态特性,缓解通用架构的空间偏差问题。
- 该框架采用跨视角时序对比学习策略,将多光谱 Sentinel-2 序列与带地理标签的地面照片进行对齐,无需文本标注,并证实单像素时间序列包含足以应对多样化地理空间任务的信息。
- 在 LUCAS 和 Sen4Map 数据集上的土地覆盖、土地利用、生境制图和作物分类基准测试中,模型展现出有效的零样本性能;消融实验进一步证实,时序丢弃策略能够增强模型对缺失观测值的鲁棒性。
引言
遥感视觉-语言模型已成为土地利用与生态系统制图的重要工具,能够在无需依赖详尽的类别特定监督的情况下实现零样本分类与文本驱动检索。此类模型支持用户使用自然语言描述查询卫星影像,从而推动可扩展的环境监测,这对于捕捉传统分类法常忽略的细粒度生态特征具有重要价值。尽管潜力巨大,但现有研究仍面临显著挑战,例如高度依赖昂贵且存在词汇偏差的标注数据集,从而限制了语义粒度。此外,大多数现有模型源自为超高分辨率影像设计的通用架构,导致其优先考虑大范围空间上下文,而非对 Sentinel-2 等中分辨率传感器更具信息量的多光谱与时序特征。这种对空间特征的偏好降低了模型在破碎化景观中的性能,并增加了计算开销。为应对上述挑战,本文提出 TimeSenCLIP,一种轻量级视觉-语言模型,通过跨视角时序对比框架将多光谱 Sentinel-2 时间序列与带地理标签的地面照片进行对齐。与以往方法不同,TimeSenCLIP 无需文本标注即可运行,并强调单像素光谱-时序动态特性而非空间上下文。该模型在生境制图、作物分类与生物区域划分等任务中实现了稳健的零样本性能,证明时序-光谱信号可有效弥补空间信息的不足,同时支持高效且可扩展的遥感处理流程。
数据集
- 数据集构成与来源: 本文结合 2018 年 LUCAS 调查的地面影像与 Sen4Map 数据集的多时相 Sentinel-2 观测数据,构建了一个统一的欧洲地理参考数据集。
- 子集详情与筛选: LUCAS 提供覆盖 28 个国家的约 23.5 万个采样点,每个点均配有四个方向的地面照片以及与 CORINE 对齐的土地利用和作物标注。Sen4Map 提供覆盖 10 个光谱波段的 64×64 像素 Sentinel-2 图块,并聚合为 12 个月度中值合成影像,以确保全年无云覆盖。生态标签源自欧洲环境署,基于生物地理区划进行筛选,排除北极、安纳托利亚、马卡里尼西亚及非欧洲区域,以规避 LUCAS 数据缺失问题。景观美学评估子集将 2,411 个英国境内的 Sen4Map 样本与 ScenicOrNot 数据集中的众包美学评分在 100 米半径内进行匹配。
- 数据使用与处理: Sen4Map 数据集划分为 14 万训练样本、3 万验证样本和 5 万测试样本。训练集用于对比预训练,测试集保留用于下游的分类、生境制图与感知回归任务评估。元数据采用标准化生态描述符与面向景观美学的文本提示构建,并应用晚期提示集成技术以捕捉概念级美学特征。
- 裁剪与输入策略: 尽管处理流程针对 64×64 图块运行,但模型主要从每个样本中心提取单像素(1×1)输入,以最小化计算开销并聚焦时序-光谱特征。消融实验中还测试了 5×5 与 9×9 图块,以量化更广泛的空间上下文对模型性能的影响。
方法
TimeSenCLIP 采用双编码器架构,旨在通过对比学习将卫星衍生时间序列与地面视觉语义进行对齐。该框架由两个核心模块构成:冻结的地面编码器与可训练的卫星编码器,两者在共享的嵌入空间中运行。训练期间,地面编码器使用冻结的 CLIP 图像编码器处理某地点的多方向影像,并通过平均池化聚合其嵌入向量,生成单一且语义丰富的表征。该模块仅在训练阶段激活,通过利用 CLIP 模型将自然图像映射到共享潜在空间中文本描述的能力,作为与文本对齐的代理目标。
如图所示,卫星编码器处理形状为 T×C×H×W 的张量形式 Sentinel-2 多光谱时间序列数据,其中 T 为时序观测数量,C 为光谱波段数,H×W 为空间范围。在单像素设置下,H=1 且 W=1。输入时间序列首先按波段进行 [0, 1] 范围的 min-max 归一化,随后进行线性图块嵌入并添加可学习的时序位置嵌入。该序列加入 CLS token 后,输入至一个 6 层 Transformer 编码器进行处理,该编码器包含 8 个注意力头、256 维隐藏层维度与 512 维潜在空间大小。Transformer 采用 GELU 激活函数与 LayerNorm,最终的类别 token 输出通过一个轻量级两层 MLP 投影头映射为 512 维卫星嵌入。生成的卫星嵌入与地面嵌入随后被投影至共享的 512 维空间中,并通过对比目标进行对齐。
为提升模型对不完整或不规则卫星观测的鲁棒性,训练过程中采用随机时序掩码策略。该数据增强以 50% 的批次概率实时应用,以模拟各类时序数据缺失情况。三种不同的掩码策略以等概率随机应用:中值池化将所有时序帧聚合为单一中值向量以模拟年度合成影像;随机四分之一掩码遮蔽连续帧子集以模拟季节性缺失;随机时序掩码随机遮蔽 1 至 11 帧,同时确保至少保留一帧,使模型能够处理变长序列。这些增强操作在输入 Transformer 前应用于线性图块嵌入。对比对齐通过 InfoNCE 损失函数实现,正样本对由同一地理标签位置的卫星嵌入与地面嵌入构成,负样本则从当前批次和大小为 2048 的动量记忆队列中采样。该记忆队列通过入队与出队机制更新以维持固定大小。模型使用 AdamW 优化器进行训练,学习率为 10−4,权重衰减为 1×10−6,采用 200 个轮次(含 10 个预热轮次)的余弦退火调度策略,批次大小为 1024。
实验
评估框架在零样本分类、跨模态检索与景观美学回归任务中检验模型性能,验证其针对分类、跨视角与感知任务将卫星时间序列与文本描述及地面影像进行对齐的能力。定性结果表明,时序动态始终作为主导的判别信号,使单像素序列在多种生态与美学应用中能够匹配或超越更大空间上下文。结合描述性自然语言提示通过利用地面训练数据显著提升了泛化能力,而针对性的时序正则化则在稀疏观测条件下有效维持了鲁棒性。最终,该方法证实,丰富的光谱-时序建模结合语义对齐能够生成高效且可扩展的表征,有效捕捉复杂的物候模式与景观特征。
实验使用不同的模型配置与提示类型,评估 TimeSenCLIP 在各类遥感任务中的性能。结果表明,引入时序建模的单像素时间序列取得了具有竞争力的精度,在物候驱动型任务中,其性能常能匹配甚至超越更大空间图块。模型在零样本分类与跨模态检索中展现出强泛化能力,且从时序聚合与描述性提示中获益。引入时序建模的单像素时间序列在零样本分类与检索任务中表现优异,常能匹敌或优于较大空间图块。时序聚合显著提升了各任务的性能,月度输入取得最佳效果,印证了时序动态对物候驱动型类别的重要性。描述性提示增强了零样本分类能力,模型在跨模态检索中表现出强泛化性,能够跨多种语义类别有效对齐卫星与地面嵌入。
实验评估了时序与多光谱丢弃策略对各类地理空间任务零样本分类性能的影响。结果表明,应用时序丢弃策略可稳定提升精度,尤其在时序数据有限时效果显著;而多光谱丢弃带来的收益微乎其微,甚至可能降低性能。同时使用两种丢弃策略并未产生额外增益,表明时序正则化是鲁棒性的主要驱动因素。时序丢弃显著提升了零样本分类精度,尤其在时序覆盖度受限时。多光谱丢弃收益有限且可能削弱性能,说明光谱线索对类别区分至关重要。结合时序与多光谱丢弃并未进一步提升性能,凸显了时序正则化在保障鲁棒性方面的主导作用。
作者评估了时序与多光谱丢弃策略在不同时序聚合级别下对各类地理空间任务零样本分类性能的影响。结果表明,时序丢弃策略可稳定提升性能,尤其在时序数据有限时;多光谱丢弃收益甚微且可能降低性能。同时使用两种策略未带来额外改进。时序丢弃显著增强了零样本分类性能,尤其在单时间戳输入场景下。多光谱丢弃几乎无益且可能削弱性能,表明光谱信息对准确分类至关重要。结合时序与多光谱丢弃未能使结果优于单独使用时序丢弃。
作者展示了一系列混淆矩阵,直观呈现 TimeSenCLIP 模型在各类土地覆盖、土地利用、作物与生境类别零样本分类中的性能。结果表明,模型在主导且定义清晰的类别上取得高准确率,多数错误发生在语义或结构相似的类别之间,说明模型局限源于数据内在的模糊性而非系统性缺陷。模型在不同分类任务中表现稳定,在土地覆盖与土地利用等宽泛类别上尤为出色,同时具备区分细粒度作物类型与生态生境的能力。模型在主导类别上实现高准确率,错误主要集中于语义相似类别,反映了数据的固有模糊性。模型在多样化任务中表现一致,在土地覆盖与土地利用等宽泛类别上成绩突出。模型成功区分细粒度作物类型与生态生境,展现出稳健的零样本泛化能力。
作者评估了地面影像聚合策略对跨模态检索性能的影响,对比了多图像平均池化与使用单张随机选择图像的效果。结果表明,平均池化较单张图像带来轻微提升,但各任务间差异极小,说明单张代表性图像已足以支持有效检索。这表明该方法可在无需大规模地面影像数据收集的情况下高效部署。地面图像的平均池化较单张图像为检索性能带来轻微提升。不同池化策略间的性能差异极小,表明单张图像已足够。研究结果支持一种可扩展方案,可有效降低跨模态检索的数据收集与计算开销。
实验通过测试不同的模型配置、提示策略、丢弃正则化与聚合方法,在多样化遥感任务中评估 TimeSenCLIP。结果表明,时序建模与聚合显著提升了零样本分类与跨模态检索性能,常优于较大空间图块,且受益于描述性提示。在数据受限条件下,时序丢弃持续增强鲁棒性,而光谱丢弃收益甚微,凸显了时序动态对物候驱动型任务的首要地位。模型在宽泛与细粒度类别上均展现出强泛化能力,错误主要反映固有语义模糊性;单图像地面检索依然高度有效,为高效可扩展的部署提供了支持。