去噪技术加速Transformer目标检测性能提升
内容总结 为提高变压器(Transformer)在二维和三维目标检测中的性能,研究人员提出了一种通过添加训练噪声的方法来优化模型的学习过程。这一机制最早可以追溯到2020年推出的DETR(DEtection TRansformer),它是一个基于变压器的目标检测架构。DETR使用了学习型解码器查询来从图像标记中提取检测信息,但这些查询初始化时是随机的,没有任何强制约束让它们类似于传统的锚点(anchor)。尽管DETR达到了与Faster-RCNN相当的结果,但它有一个显著的缺点——训练收敛速度慢,需要500个epoch才能完成训练。 为了加速训练和提高性能,后续的研究引入了一些改进措施。例如,Deformable DETR在每个迭代过程中允许查询只关注图像的某些区域,而DAB-DETR则使用了空间锚点(通过k-means生成),并将这些锚点编码为初始查询。此外,跳跃连接使变压器的解码层能够将锚点作为回归值来学习边界框。然而,这些方法仍然依赖于匈牙利算法(Hungarian algorithm)来进行预测与真实标签(ground truth)的匹配。匈牙利算法的时间复杂度为O(n³),并且由于其不稳定性,使得对象查询在不同对象之间跳跃,从而影响了模型的收敛速度。 2024年,Li等人提出了一种名为DN-DETR的方法,即通过向真实标签添加少量噪声来生成虚拟锚点,从而跳过匈牙利算法的匹配过程。这样做不仅加速了模型的训练,还提高了其最终性能。在每一轮训练中,噪声被添加到真实标签中,生成的噪声版本作为锚点输入解码器查询。这些噪声查询被屏蔽,不会与正常的查询发生交叉注意力干扰,因此产生的检测可以直接与源真实标签匹配,而不需要再进行匈牙利算法匹配。实验结果显示,DN-DETR模型在验证阶段的表现更加稳定,更多的查询能够在连续的epoch中与同一个真实标签保持一致。 DINO模型进一步扩展了这一思路,引入了对比学习(contrastive learning)机制。它不仅生成正样本(positive example),还生成负样本(negative example),后者在空间上距离真实标签更远。模型通过学习接受接近真实标签的检测,同时拒绝远处的检测,从而提高了检测的准确性和稳定性。此外,DINO还支持多组对比噪声(contrastive denoising groups),即每个真实标签可以有多个噪声版本,这样每次训练迭代都能学到更多有用的信息。 最近的一些时间序列模型,如Sparse4Dv3,也在追踪任务中采用了对比噪声机制,通过存储前一帧中成功检测到的对象的锚点,以及与这些锚点相关的非噪声学习结果,来增强模型在跨帧追踪中的性能。实验结果显示,在使用ResNet-50作为骨干网络时,DN-DETR在COCO检测数据集上的平均精度(AP)比之前的最先进技术DAB-DETR高1.9%。 业内人士评价及公司背景 噪声添加方法(DN)明显改善了基于变压器的目标检测模型的收敛速度和最终性能。这一机制不仅为模型提供了更多的学习信号,还减少了匈牙利算法带来的不稳定因素。业内人士认为,DN-DETR和DINO等模型的成功证明了动态噪声在训练过程中的有效性,特别是在目标追踪任务中。未来的研究可能会进一步探索DN在各种应用场景下的潜力,尤其是在需要跨帧跟踪的对象检测中。此外,这些模型背后的团队通常来自学术界和顶级科技公司,如Google Research、Meta AI等,他们在计算机视觉领域的研究成果对整个行业都产生了深远的影响。
