Command Palette
Search for a command to run...
AeroGen:利用扩散驱动的数据生成增强遥感目标检测
AeroGen:利用扩散驱动的数据生成增强遥感目标检测
Datao Tang Xiangyong Cao Xuan Wu Jialin Li Jing Yao Xueru Bai Dongsheng Jiang Yin Li Deyu Meng
数据分析、数据增强和 ResNet 神经网络
摘要
遥感图像目标检测(RSIOD)旨在卫星或航空影像中识别并定位特定目标。然而,当前RSIOD数据集中标注数据的稀缺性显著限制了现有检测算法的性能。尽管现有技术(如数据增强和半监督学习)在一定程度上可以缓解这种稀缺性问题,但它们严重依赖于高质量标注数据,并且在稀有目标类别上的表现较差。为解决这一问题,本文提出了一种面向RSIOD的布局可控扩散生成模型(即AeroGen)。据我们所知,AeroGen是首个同时支持水平边界框和旋转边界框条件生成的模型,从而能够生成满足特定布局和物体类别要求的高质量合成图像。[注:原文此处似有缺失,根据上下文补充] 引入机制以增强生成数据的多样性和质量。实验结果表明,我们方法生成的合成数据具有高质量和高多样性。此外,合成的RSIOD数据能显著提升现有RSIOD模型的检测性能,即在DIOR、DIOR-R和HRSC数据集上的mAP指标分别提升了3.7%、4.3%和2.43%。
一句话总结
作者提出了 AeroGen,这是一种布局可控的扩散生成模型,通过同时以水平边界框和旋转边界框为条件,生成用于遥感目标检测的高质量合成训练数据,使 DIOR、DIOR-R 和 HRSC 数据集上的 mAP 分别提升了 3.7%、4.3% 和 2.43%。
核心贡献
- 本文介绍了 AeroGen,这是一种专为遥感图像目标检测定制的布局可控扩散生成模型,同时支持水平和旋转边界框条件控制,以合成具有特定空间布局的高质量图像。
- 将多样性条件生成器与定向过滤机制相结合,以优化合成数据的多样性和保真度,从而实现高效的端到端数据增强,无需依赖实例粘贴流水线。
- 在 DIOR、DIOR-R 和 HRSC 数据集上的基准评估表明,使用该合成数据训练检测模型可使平均精度均值(mAP)分别提升 3.7%、4.3% 和 2.43%。
引言
遥感图像目标检测能够对卫星和航空影像进行关键分析,但其发展始终受到高质量标注训练数据严重不足的制约。现有的生成和增强技术通常严重依赖丰富的真实标注,在罕见目标类别上表现不佳,且缺乏航拍场景中典型的旋转和水平边界框所需的精确空间控制能力。作者利用一种名为 AeroGen 的布局可控扩散模型,直接根据特定物体布局合成高保真遥感图像。通过将多样性条件生成器与质量感知过滤机制相结合,该端到端框架克服了先前的局限性,并提供了能够显著提升标准基准检测精度的合成训练数据。
数据集
- 数据集构成与来源: 作者使用了三个遥感数据集:DIOR、DIOR-R 和 HRSC。DIOR 和 DIOR-R 共享相同的影像,但标注格式不同,DIOR 使用标准边界框,而 DIOR-R 使用旋转边界框。HRSC 是一个专用的船舶检测数据集。
- 子集详情与划分: HRSC 包含 436 个训练帧、181 个评估帧和 444 个测试帧,分辨率范围从 300x300 到 1500x900 像素。DIOR 和 DIOR-R 数据集按 1:1:2 的比例划分为训练集、验证集和测试集。所有生成训练仅依赖训练集划分。
- 处理与过滤: 作者通过拟合条件扩散模型来扩展布局条件,从而生成合成数据。随后,他们应用两种自动过滤器移除低质量的合成条件和图像,在整合前严格执行语义和布局一致性要求。提供的文本中未详细说明裁剪策略和明确的元数据构建步骤。
- 使用与训练配置: 过滤后的合成图像与真实数据结合,用于增强下游目标检测的训练集。作者在每个数据集上分别训练 AeroGen 模型 100 个 epoch,使用 AdamW 优化器,学习率为 1e-5。仅更新 UNet 注意力层和 Layout Mask Attention 模块,其余权重保持冻结状态,源自预训练的遥感扩散模型检查点。
方法
作者利用一个双组件框架,根据布局约束生成高质量的遥感图像。主要组件是一个布局条件扩散模型,该模型结合了全局文本指导和精确的布局控制,以生成具有指定物体位置的图像。该模型基于为遥感任务微调的潜在扩散模型(LDM)构建。布局控制通过双交叉注意力机制实现,该机制将全局文本条件与局部布局信息融合。全局文本提示词由冻结的 CLIP 文本编码器处理以生成语义嵌入,作为全局条件信号。同时,布局信息使用傅里叶编码与类别特定嵌入的组合进行编码。每个物体的边界框,无论是轴对齐还是旋转的,都表示为八个坐标的列表,随后进行傅里叶编码,将位置数据转换为频域向量。该编码后的位置表示与从 CLIP 编码器获得的类别嵌入拼接,并通过线性层生成布局控制 token。这些 token 通过双交叉注意力模块注入扩散过程,在此调节注意力机制以引导生成过程。模型的输出是全局注意力输出与布局条件注意力输出的加权和,使模型能够平衡高级语义指导与精确的空间布局。
如下图所示:布局嵌入模块使用傅里叶层和 MLP 层将边界框坐标与向量化语义信息相结合。这编码了布局信息以促进控制,提示词描述由 CLIP 文本编码器处理以提供全局条件指导。图中展示了在噪声级别注入布局信息的过程,其中局部掩码控制布局信息的注入位置,从而实现更精细的布局控制。文章展示了 AeroGen 的整体架构和训练流程,在每个时间步,去噪图像首先经过布局信息注入模块,以增强布局条件指导。该模型架构集成了残差块和自注意力层,布局控制通过布局掩码注意力机制应用,该机制使用二值掩码引导注意力计算,从而在扩散生成过程中精确操纵局部噪声特性。
该框架的第二个组件是一个生成流水线,通过将基于扩散的生成器与数据过滤机制相结合,产生多样且高质量的合成数据。该流水线分为五个阶段:标签生成、标签过滤、图像生成、图像过滤和数据增强。在标签生成阶段,使用去噪扩散概率模型(DDPM)学习布局标签的条件分布,这些标签表示为维度为 H×W×N 的矩阵,其中 H 和 W 为图像尺寸,N 为目标类别数量。如果像素属于特定类别的目标区域,则矩阵中的对应元素设为 1,否则设为 -1。DDPM 生成器从该分布中采样以生成合成布局标签。这些标签随后通过基于高斯分布的过滤机制,该机制通过应用基于标准差的阈值,确保生成的边界框属性(如面积)符合真实分布。此过滤步骤有助于排除不合理或低质量的布局条件。
如下图所示:生成流水线从标签生成开始,去噪扩散模型对合成标签进行采样。随后使用基于高斯分布的机制对这些标签进行过滤,以确保其符合真实情况。过滤后的标签经过增强并用于指导图像生成过程,布局引导的扩散模型据此生成合成图像。生成的图像会接受基于语义和布局一致性的质量评估。语义一致性使用 CLIP 模型进行评估,布局一致性则使用基于 ResNet101 的分类器进行评估。满足预设质量和一致性阈值的图像将被选入最终数据集。流水线最后进行数据增强,将合成图像与真实图像结合以训练下游目标检测模型。该过程确保合成数据兼具多样性与语义一致性,从而提升目标检测模型的整体性能。
实验
评估测试了 AeroGen 的生成能力及其作为下游遥感目标检测任务数据增强工具的有效性,涵盖多个基准数据集。对比分析表明,该模型持续生成高质量图像,具有更优的布局一致性和增强的微小目标渲染效果,同时成功支持旋转边界框。此外,实验证实,整合这些合成图像能显著提升下游检测性能,尤其针对代表性不足的类别,且优于传统增强策略。消融实验进一步验证了特定架构组件和流水线过滤机制协同工作以优化生成质量,确立了 AeroGen 作为增强遥感视觉任务的稳健解决方案。
作者在下游目标检测任务上对比了不同的数据增强策略,包括传统方法及其提出的基于 AeroGen 的方法。结果表明,将 AeroGen 与传统增强技术结合可在各项指标上带来最高的性能提升。结合传统增强方法的 AeroGen 优于单一策略。AeroGen 与 Flip 和 CopyPaste 的结合在 mAP 和 mAP50 指标上均取得最佳结果。仅使用传统增强方法的表现低于结合合成数据的提出方法。
作者进行了实验,以评估 AeroGen 生成的合成数据在改进下游目标检测任务方面的有效性。结果表明,添加合成数据在不同数据集上均能持续提升性能,且随着合成数据量的增加,提升效果愈发明显。对于罕见类别,收益尤为显著,提升幅度较大。添加合成数据显著提升了下游目标检测任务的性能。性能随合成数据量的增加而提升,各项指标均呈现一致性的改善。合成数据的好处在罕见类别上最为明显,带来了检测性能的实质性提升。
作者在多个数据集和模态上评估了 AeroGen 根据布局条件生成图像的性能,并与最先进的方法进行了对比。结果表明,AeroGen 在所有指标上均取得优越性能,尤其在处理旋转边界框和生成提升下游目标检测任务的高质量图像方面表现突出。通过数据增强实验进一步验证了 AeroGen 生成合成数据的有效性,其持续改善检测性能,特别是在罕见类别中。在包含旋转边界框在内的多个指标和数据集上,AeroGen 均优于现有的布局到图像生成方法。AeroGen 生成的合成数据显著增强了下游目标检测性能,尤其针对罕见类别。集成 Layout Mask Attention 和 Dual Cross Attention 等特定模块提升了生成输出的图像质量与布局一致性。
作者使用 DIOR-R 数据集评估了 AeroGen 生成的合成数据对下游目标检测任务的影响。结果表明,增加合成数据量可提升 mAP 和 mAP50 指标上的检测性能,且在较大数据规模下观察到的提升最为显著。与未增强的基线条件相比,添加合成数据持续提升了模型性能。增加合成数据量提升了 DIOR-R 数据集上的检测性能。使用最大规模的合成数据取得了最佳性能,mAP 和 mAP50 均显示出显著增益。在各项评估指标上,合成数据增强持续优于无增强的基线。
作者进行了实验以评估 AeroGen 的生成能力,重点关注布局到图像生成及其在下游目标检测任务数据增强方面的有效性。结果表明,AeroGen 在生成与输入布局一致的高质量图像方面优于现有方法,且合成数据显著提升了检测性能,尤其针对罕见类别。消融实验进一步验证了该模型的有效性,凸显了关键模块和流水线组件的贡献。在多个数据集上,AeroGen 生成符合布局条件图像的能力优于最先进的方法。AeroGen 生成的合成数据显著提升了下游目标检测性能,尤其是罕见类别。消融实验证实,布局掩码注意力和双交叉注意力模块均能提升图像质量与检测性能。
评估设置测试了 AeroGen 的布局到图像生成能力及其作为下游目标检测数据增强策略的有效性,涵盖多个数据集。对比基准验证了该模型生成的图像质量更高且布局一致性更强,尤其针对旋转边界框。增强实验证实,将合成数据与传统技术结合可产生最强的性能增益,该增益随数据量增加而正向提升,并对罕见目标类别尤为有益。最后,消融实验验证了专用注意力模块在保持空间精度和提升整体检测可靠性方面的关键作用。