Command Palette
Search for a command to run...
DEYO:用于端到端目标检测的基于YOLO的DETR
DEYO:用于端到端目标检测的基于YOLO的DETR
Haodong Ouyang
使用 Transformer 的端到端目标检测:DETR
摘要
DETR的训练范式高度依赖于在ImageNet数据集上对其主干网络进行预训练。然而,图像分类任务提供的监督信号有限以及一对一匹配策略导致DETR的颈部网络预训练不足。此外,训练初期匹配的稳定性较差,引发了DETR优化目标的不一致性。为解决这些问题,我们设计了一种创新的逐步训练方法。具体而言,在训练的第一阶段,我们采用经典的、使用一对多匹配策略预训练的检测器来初始化端到端检测器的主干网络和颈部网络。在训练的第二阶段,我们冻结了端到端检测器的主干网络和颈部网络,从而需要从头开始训练解码器。通过应用逐步训练方法,我们引入了首个采用纯卷积结构编码器的实时端到端目标检测模型——基于YOLO的DETR(DEYO)。在不依赖任何额外训练数据的情况下,DEYO在速度和精度方面均超越了所有现有的实时目标检测器。此外,完整的DEYO系列模型仅使用一块8GB显存的RTX 4060 GPU即可完成在COCO数据集上的第二阶段训练,显著降低了训练成本。
一句话总结
DEYO 提出了一种纯卷积端到端目标检测器。该模型采用分步训练策略,首先使用经典的一对多检测器初始化主干网络与颈部网络,随后冻结这些组件以从头训练解码器。最终,DEYO 在 COCO 数据集上的速度与精度均超越了现有的实时检测器,且第二阶段训练仅需在单张 8GB RTX 4060 GPU 上即可完成。
核心贡献
- 提出了一种分步训练范式。该方法首先利用经典的一对多匹配检测器初始化主干网络与颈部网络,随后冻结这些组件以从头训练解码器。该策略有效稳定了早期优化过程,并消除了对额外预训练数据集的需求。
- 推出了 DEYO,这是首款采用纯卷积编码器架构的实时端到端目标检测器。通过摒弃非极大值抑制(NMS)后处理步骤,该模型实现了无延迟推理,同时在速度与精度上超越了现有的实时检测器。
- 通过在 COCO 基准数据集上进行广泛评估验证了该框架的有效性。结果表明,DEYO 系列达到了最先进的实时检测性能。第二阶段训练可在单张 8GB RTX 4060 GPU 上完成,大幅降低了计算成本。
引言
目标检测是自动驾驶与视频监控等计算机视觉应用的基础技术。尽管基于 Transformer 的端到端检测器通过移除非极大值抑制等手动调优步骤简化了流程,但仍面临显著的瓶颈。这些模型高度依赖 ImageNet 预训练,限制了主干网络的灵活性并增加了开发成本。同时,其匈牙利匹配机制会引入查询模糊性,导致早期优化不稳定,进而损害预训练特征的质量。为克服这些局限,本文提出了一种分步训练范式,彻底消除了对外部数据集的依赖。该方法首先训练经典检测器以初始化主干网络与颈部网络,随后冻结这些组件并仅从头训练解码器,由此构建了 DEYO。作为首款采用纯卷积编码器的实时端到端检测器,DEYO 在无需非极大值抑制的情况下,实现了最先进的速度与精度表现。
方法
本文采用一种称为分步训练的两阶段训练方法构建 DEYO,这是一种具有纯卷积编码器的实时端到端目标检测模型。整体框架分为两个独立阶段,每个阶段具有特定的训练目标与架构配置。第一阶段专注于预训练一对多分支,以建立高质量的主干网络与颈部网络;第二阶段则利用已预训练的组件作为基础,从头训练一对一分支的解码器。
参见框架示意图。训练第一阶段采用经典的一对多检测器(具体为 YOLOv8)作为一对多分支。该分支由 CNN 主干网络、特征金字塔网络(FPN)和路径聚合网络(PAN)共同构成颈部结构,并包含一个在三个不同尺度上生成预测的检测头。在此阶段,模型采用一对多标签分配策略进行训练。该策略提供了更多的正样本与更全面的监督信号,从而训练出鲁棒性更强的主干网络与颈部网络。该预训练结构随后用于初始化最终 DEYO 模型中一对一分支的对应组件。该阶段的输出为颈部产生的多尺度特征图,用于生成候选区域。
如框架示意图所示,训练第二阶段涉及一对一分支,该分支构建于预训练的主干网络与颈部网络之上。在此阶段,主干网络与颈部网络处于冻结状态,即其参数在训练过程中不会更新。这是一项关键的设计选择,旨在防止早期阶段二分图匹配的不稳定性,从而避免预训练特征质量下降。训练过程仅聚焦于从头初始化的解码器。解码器是一个基于 Transformer 的模块,基于一组可学习的查询向量(queries)进行操作。该过程始于特征投影模块,该模块将来自冻结颈部的多尺度特征转换至统一的特征空间。该模块的输入为特征图 P3、P4 和 P5,它们被投影至新空间 S1。随后将这些特征拼接形成 S2,作为解码器层的键、值与查询输入(Q=K=V=S2)。
如图所示,DEYO 中的查询生成过程实现了解耦。模型将边界框的生成与嵌入向量的生成分离开来。这使得通过增强的特征投影更有效地压缩来自颈部的多尺度信息成为可能。一对多分支的预训练边界框检测头被继承,并用于初始化查询生成过程。该策略将边界框检测头的学习过程从密集的多对一分配过渡到稀疏的一对一分配,避免了从头训练的需求。随后,解码器层通过自注意力机制逐步优化查询向量,该机制能够捕捉查询间的关联并抑制冗余预测。该设计实现了稳定的推理速度,并消除了对非极大值抑制(NMS)的需求,因为最终预测天然具有一对一的特性。整体架构设计兼顾轻量与高效,使模型能够在大幅降低训练成本的同时实现高性能。
实验
评估设置以 COCO 和 CrowdHuman 数据集为基准,将 DEYO 架构与领先的实时及端到端检测器进行对比,并利用分步训练策略验证其在标准与密集目标检测场景中的有效性。定性分析证实,这种渐进式训练方法结合预训练颈部网络与稳定的第二阶段优化,有效克服了基于 Transformer 模型常见的监督信号局限,同时支持强鲁棒性的数据增强且未造成性能下降。总体而言,实验表明相较于现有方法,DEYO 实现了更优的精度与速度权衡,并显著降低了计算开销,凸显了其即插即用的兼容性以及在资源受限或自定义数据集应用中的巨大潜力。
本文展示了不同规模 DEYO 模型在不同训练轮数下的性能对比实验结果。结果表明,将训练轮数从 12 增加到 24,所有规模模型的 AP 与 AP50 均获得稳定提升,且较大规模的模型通常能达到更高的性能指标。作者利用这些结果分析了训练时长对模型精度的影响。将训练轮数从 12 增加至 24,所有 DEYO 模型规模的 AP 与 AP50 均得到一致提升。在所有评估模型中,DEYO-X 取得了最高的 AP 与 AP50 值。与 DEYO-N 和 DEYO-S 等较小变体相比,DEYO-L 和 DEYO-X 等较大模型表现出更优的性能。
作者在 CrowdHuman 数据集上对比了不同的训练策略与方法,重点考察分步训练的影响。结果表明,采用分步训练可使所有方法的性能获得稳定提升,其中 DINO 与 H-DETR 模型的提升幅度最大。未采用分步训练的基础方法性能显著较差,凸显了该训练策略对实现高精度的重要性。分步训练显著提升了所有评估方法的性能。未使用分步训练的基础方法准确率最低,进一步印证了该策略的重要性。DINO 与 H-DETR 从分步训练中获益最多,展现出显著的性能提升。
作者在基准测试中将 DEYO-X 与多种现有方法进行了对比,结果显示 DEYO-X 使用了更多的训练轮数,但取得了更高的 AP50 与召回率。结果表明,DEYO-X 在 AP50 与召回率方面优于其他竞争方法,相较于 Deform DETR 与 DW 等方法,AP50 有显著提升。在对比方法中,DEYO-X 实现了最高的 AP50 与召回率。DEYO-X 使用的训练轮数显著多于其他方法,表明其经历了更长的训练过程。DEYO-X 在 AP50 指标上相较于 Deform DETR 与 DW 等方法展现出实质性提升。
{"summary": "作者将基于查询的目标检测器 DEYO 与经典 YOLOv8 模型在 COCO 数据集上进行对比,突显了 DEYO 在不同规模下的精度与速度优势。结果表明,相较于 YOLOv8,DEYO 在保持更快推理速度的同时实现了更高的平均精度与召回率,且模型规模越大,性能提升越明显。", "highlights": ["DEYO 在所有规模下均实现了高于 YOLOv8 的精度与召回率,同时保持更快的推理速度。", "随着模型规模增大,DEYO 的性能持续提升,尤其在精度与召回率指标上表现突出。", "相较于 YOLOv8,DEYO 在精度与速度之间实现了更优的权衡,尤其在大型模型变体中更为明显。"]
作者在 COCO 与 CrowdHuman 数据集上开展实验,评估 DEYO 在目标检测任务中的性能,并将其与 YOLOv8 和 RT-DETR 进行对比。结果表明,DEYO 实现了更高的精度与速度,尤其在密集检测场景中表现突出,且在固定输入尺寸下展现出强劲的性能。消融研究强调了预训练颈部网络与分步训练策略对提升模型性能的重要性。在使用预训练颈部网络时,DEYO 的 AP50 高于基础模型。引入预训练颈部网络显著提升了 DEYO 的性能。DEYO 在实时速度下于密集检测场景中展现出卓越性能。
实验在多种模型规模与训练配置下评估了 DEYO,验证了延长训练时长与采用更大架构能够持续提升检测精度。在标准基准测试中与成熟方法的对比分析表明,DEYO 实现了更优的精度与实时推理速度,尤其在密集目标检测场景中表现突出。消融研究进一步证实,结构化的训练协议与预训练颈部模块是驱动此性能提升的关键因素。总体而言,结果确立了 DEYO 作为一种可扩展且高效的检测器,其在超越现有基础模型的同时,在精度与计算效率之间保持了良好的平衡。