
摘要
本研究对YOLOv11进行了架构分析,这是YOLO(You Only Look Once)系列目标检测模型的最新版本。我们考察了该模型的架构创新,包括引入C3k2(跨阶段部分连接块,核大小为2)、SPPF(空间金字塔池化-快速)和C2PSA(并行空间注意力卷积块)组件,这些改进在多个方面提升了模型性能,例如增强了特征提取能力。论文探讨了YOLOv11在各种计算机视觉任务中的扩展能力,包括目标检测、实例分割、姿态估计和定向目标检测(OBB)。我们回顾了该模型在平均精度均值(mAP)和计算效率方面的性能提升,并将其与前代模型进行对比,重点关注参数量与准确率之间的权衡。此外,本研究还讨论了YOLOv11在不同模型尺寸上的灵活性,从纳米到超大型,满足从边缘设备到高性能计算环境的各种应用需求。我们的研究提供了关于YOLOv11在更广泛的目标检测领域中的地位及其对实时计算机视觉应用潜在影响的见解。