一键部署 YOLOv11

YOLO11:YOLO 系列最新版本,计算机视觉任务的多功能选择

一、教程简介

YOLOv11 是由 Ultralytics 团队开发的实时目标检测器的最新迭代版本,它在 2024 年 9 月 30 日的 YOLO Vision 2024 (YV24) 活动上被宣布。 YOLOv11 在准确性、速度和效率方面进行了显著提升,使其成为计算机视觉任务的强大工具。 YOLOv11 的推出旨在简化开发流程,并为后续的集成提供基石。它与以前的 YOLO 模型版本相比,在架构和训练方法上进行了重大改进,使其成为各种计算机视觉任务中的通用选择。 YOLOv11 的推出,预示着目标检测技术的一个全新里程碑,它不仅在速度与精度上树立了新的标杆,更重要的是,其创新的模型架构设计让复杂的目标检测任务变得触手可及。

此外,YOLOv11 的安装过程相对简单,开发者可以从其 GitHub 页面下载最新的源码,并按照指南进行模型预测的命令行测试。该教程使用 YOLOv11,已经将模型和相关环境安装完毕,直接克隆并打开 API 地址即可进行模型推理,实现对图像的检测、分割、姿态估计、跟踪和分类。

YOLOv11 的主要改进包括:

  • 增强的特征提取:改进的骨干和颈部架构,提高了物体检测的精确度。
  • 优化的处理速度:新的架构设计和训练方法使得处理速度更快。
  • 更高的准确性与更少的参数:在 COCO 数据集上,YOLOv11m 实现了比 YOLOv8m 更高的平均精度 (mAP),同时使用的参数更少。
  • 环境适应性强:YOLOv11 可以部署在多种环境中,包括边缘设备、云平台以及支持 NVIDIA GPU 的系统。
  • 支持广泛的任务:YOLOv11 支持物体检测、实例分割、图像分类、姿态估计和定向物体检测 (OBB) 等多种计算机视觉任务。

YOLO 发展历程

YOLO (You Only Look Once) 是一种流行的目标检测和图像分割模型,由华盛顿大学的 Joseph Redmon 和 Ali Farhadi 开发。 YOLO 于 2015 年推出,以其高速度和准确性迅速受到欢迎。

  • 2016 年发布的 YOLOv2 通过纳入批量归一化、锚框和维度集群改进了原始模型。
  • 2018 年推出的 YOLOv3 使用更高效的骨干网络、多锚和空间金字塔池进一步增强了模型的性能。
  • YOLOv4 在 2020 年发布,引入了诸如 Mosaic 数据增强、新的无锚检测头和新的损失函数等创新。
  • YOLOv5 进一步提高了模型的性能,并增加了超参数优化、集成实验跟踪和自动导出为常用导出格式等新功能。
  • YOLOv6 于 2022 年由美团开源,目前已用于该公司的许多自主配送机器人。
  • YOLOv7 增加了额外的任务,如 COCO 关键点数据集的姿势估计。
  • YOLOv8 由 Ultralytics 在 2023 年发布。 YOLOv8 引入了新特性和改进,以增强性能、灵活性和效率,支持全方位的视觉人工智能任务。
  • YOLOv9 引入了可编程梯度信息 (PGI) 和广义高效层聚合网络 (GELAN) 等创新方法。
  • YOLOv10 是由清华大学的研究人员使用该软件包创建的。 UltralyticsPython 软件包创建的。该版本通过引入端到端头 (End-to-End head),消除了非最大抑制 (NMS) 要求,实现了实时目标检测的进步。
  • YOLOv11 🚀 NEW: Ultralytics 的最新 YOLO 模型在多项任务(包括检测、分割、姿态估计、跟踪和分类)中提供最先进的 (SOTA) 性能,利用了各种 AI 应用程序和领域的功能。

二、运行步骤

启动容器后点击 API 地址即可进入 Web 界面

该教程包含 5 种功能:

  • 物体检测
  • 实例分割
  • 图像分类
  • 姿态估计
  • 定位物体检测

1 、物体检测

物体检测器的输出是一组包围图像中物体的边框,以及每个边框的类标签和置信度分数。如果您需要识别场景中感兴趣的物体,但又不需要知道物体的具体位置或确切形状,那么物体检测就是一个不错的选择。

图 1 物体检测

2 、实例分割

实例分割模型的输出是一组勾勒出图像中每个物体的遮罩或轮廓,以及每个物体的类标签和置信度分数。当你不仅需要知道物体在图像中的位置,还需要知道它们的具体形状时,实例分割就非常有用了。

图 2 实例分割

3 、图像分类

图像分类器的输出是单一类别标签和置信度分数。当你只需要知道图像属于哪一类,而不需要知道该类对象的位置或确切形状时,图像分类就非常有用。

图 3 图像分类

4 、姿态估计

姿态估计是一项涉及识别图像中特定点(通常称为关键点)位置的任务。关键点可以代表物体的各个部分,如关节、地标或其他显著特征。关键点的位置通常用一组二维 [x, y] 或 3D [x, y, visible] 坐标

姿态估计模型的输出是一组代表图像中物体关键点的点,通常还包括每个点的置信度分数。当您需要识别场景中物体的特定部分及其相互之间的位置关系时,姿势估计是一个不错的选择。

图 4 姿态估计

5 、定向物体检测

定向物体检测比物体检测更进一步,它引入了一个额外的角度来更准确地定位图像中的物体。

定向物体检测器的输出结果是一组旋转的边界框,这些边界框精确地包围了图像中的物体,同时还包含每个边界框的类标签和置信度分数。当你需要识别场景中感兴趣的物体,但又不需要知道物体的具体位置或确切形状时,物体检测是一个不错的选择。

图 5 定向物体检测

交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓