HyperAI超神经

RF-DETR目标检测与YOLOv12的比较:在标签模糊的复杂果园环境下,针对单类和多类青果检测的Transformer架构与CNN架构的研究

Ranjan Sapkota, Rahul Harsha Cheppally, Ajay Sharda, Manoj Karkee
发布日期: 4/23/2025
RF-DETR目标检测与YOLOv12的比较:在标签模糊的复杂果园环境下,针对单类和多类青果检测的Transformer架构与CNN架构的研究
摘要

本研究对RF-DETR目标检测基础模型和YOLOv12目标检测模型配置进行了详细的比较,以评估它们在复杂果园环境中检测绿色水果的能力。该环境的特点是标签模糊、遮挡和背景融合。研究开发了一个自定义数据集,包含单类别(绿色水果)和多类别(遮挡和未遮挡的绿色水果)的标注,以评估模型在动态现实条件下的表现。RF-DETR目标检测模型利用DINOv2骨干网络和可变形注意力机制,在全局上下文建模方面表现出色,能够有效识别部分遮挡或模糊的绿色水果。相比之下,YOLOv12则利用基于CNN的注意力机制来增强局部特征提取,优化了计算效率和边缘部署。在单类别检测中,RF-DETR达到了最高的平均精度均值(mAP50)0.9464,证明了其在杂乱场景中定位绿色水果的优越能力。尽管YOLOv12N记录了最高的mAP@50:95值为0.7620,但在复杂空间场景中,RF-DETR始终表现更优。对于多类别检测,RF-DETR以mAP@50 0.8298的成绩领先,显示了其区分遮挡与未遮挡水果的能力;而YOLOv12L则在mAP@50:95上取得了最高分0.6622,表明其在详细遮挡情境中的分类效果更好。训练动态分析显示了RF-DETR的快速收敛性,在单类别设置下仅需10个周期即可达到稳定状态,这体现了基于Transformer架构在适应动态视觉数据方面的高效性。这些发现验证了RF-DETR在精准农业应用中的有效性,并表明YOLOv12更适合快速响应场景。 >关键词:RF-DETR目标检测、YOLOv12、YOLOv13、YOLOv14、YOLOv15、YOLOE、YOLO World、YOLO(You Only Look Once)、Roboflow、检测Transformer、CNNs