8 个月前

摘要

近年来，YOLO系列模型因其在计算成本与检测性能之间实现了高效平衡，已成为实时目标检测领域的主流范式。研究人员在YOLO的网络架构设计、优化目标、数据增强策略等方面开展了广泛探索，取得了显著进展。然而，其对非极大值抑制（Non-Maximum Suppression, NMS）后处理的依赖，不仅阻碍了YOLO模型的端到端部署，还显著增加了推理延迟。此外，YOLO中各类组件的设计缺乏系统性与全面性评估，导致明显的计算冗余，限制了模型的潜力发挥，使其整体效率处于次优状态，仍具备较大的性能提升空间。针对上述问题，本文致力于从后处理机制与模型架构两个维度进一步突破YOLO在性能与效率之间的边界。为此，我们首先提出一种适用于无NMS训练的统一双分配策略（Consistent Dual Assignments），在实现优异检测性能的同时显著降低推理延迟。此外，我们引入了一种面向效率与精度协同优化的全局模型设计策略，从效率与准确性双重角度对YOLO的各个组件进行系统性优化，大幅减少了计算开销，显著提升了模型表达能力。基于上述创新，我们提出新一代实时端到端目标检测模型——YOLOv10。大量实验结果表明，YOLOv10在不同模型规模下均实现了当前最优的性能与效率平衡。例如，在COCO数据集上，当检测精度（AP）相近时，YOLOv10-S的推理速度比RT-DETR-R18快1.8倍，参数量和浮点运算量（FLOPs）分别减少2.8倍；相较于YOLOv9-C，YOLOv10-B在保持相同性能的前提下，推理延迟降低46%，参数量减少25%。这些结果充分验证了YOLOv10在实时检测任务中的卓越优势。

一句话总结

清华大学的研究人员提出了 YOLOv10，一种新的实时端到端目标检测框架，通过一致的双重分配机制消除了非极大值抑制（NMS），并采用整体效率-精度驱动的设计，在多个尺度上实现了最先进的速度、精度和模型紧凑性。其中，YOLOv10-S 比 RT-DETR-R18 快 1.8 倍，YOLOv10-B 相比 YOLOv9-C 延迟降低 46%。

主要贡献

本文解决了 YOLO 系列因依赖非极大值抑制（NMS）进行后处理而导致的效率低下问题，提出了一种一致的双重分配策略，实现无 NMS 训练，支持一对一标签分配和一致的匹配度量，从而在低推理延迟下实现端到端部署，并保持竞争力的精度。
提出了一种整体效率-精度驱动的模型设计策略，系统性地优化 YOLO 的关键组件，包括轻量级分类头、空间-通道解耦下采样、基于秩引导的模块设计，以及高效的局部自注意力模块，显著减少计算冗余的同时提升模型能力。
在 COCO 数据集上的大量实验表明，YOLOv10 实现了最先进的性能-效率权衡：YOLOv10-S 在相近 AP 水平下比 RT-DETR-R18 快 1.8 倍；YOLOv10-B 在相同性能下延迟降低 46%，参数减少 25%。

引言

研究人员利用 YOLO 基础目标检测器在自动驾驶、机器人等实时应用中的广泛部署，这些场景中精度与速度的平衡至关重要。先前的 YOLO 变体依赖非极大值抑制（NMS）进行后处理，引入延迟，阻碍端到端部署，并对超参数敏感。此外，YOLO 中的架构组件长期孤立优化，导致计算冗余和次优的效率与性能。为解决这些问题，研究人员提出 YOLOv10，新一代实时端到端检测器。其核心贡献包括：一种一致的双重分配策略，支持训练阶段的一对多监督与推理阶段的一对一预测，实现无 NMS 训练，确保高精度与低延迟。同时提出整体效率-精度驱动设计，集成轻量级分类头、空间-通道解耦下采样、基于秩引导的模块设计、大核卷积以及部分自注意力模块（PSA），以减少冗余并增强能力。结果表明，YOLOv10 在多个尺度上实现了最先进的精度-效率权衡，相比 YOLOv9 和 RT-DETR 等先前模型，在速度、参数量和 FLOPs 上均表现更优，同时保持或提升精度。

方法

研究人员采用双头架构，使 YOLO 模型实现无 NMS 训练，解决推理效率与性能之间的权衡。如图所示，该框架包含共享主干网络和 PAN（路径聚合网络）颈部，连接两个并行检测头。第一个为一对多头，在训练中通过将多个正预测分配给每个真实框，提供丰富的监督信号。第二个为一对一头，每个真实框仅分配一个预测，从而在推理阶段无需 NMS 后处理。两个头共享相同的网络结构和优化目标，但采用不同的标签分配策略。训练时，模型通过双头联合优化，使主干和颈部受益于一对多分支的丰富监督。推理时，一对多头被丢弃，仅由一对一头生成预测，实现端到端部署且无额外计算开销。该设计确保模型在训练中获得高精度，同时保持高推理效率。

为确保一对一头的优化与一对多头保持一致，研究人员引入了一致匹配度量。该度量定义为 $m = s \cdot p^\alpha \cdot \mathrm{IoU}(\hat{b}, b)^\beta$ ，定量评估预测与真实框之间的匹配程度，其中 $p$ 为分类得分， $\hat{b}$ 和 $b$ 分别为预测与真实边界框， $s$ 为空间先验，表示锚点是否位于目标区域内， $\alpha$ 和 $\beta$ 为平衡分类与回归任务的超参数。研究人员为两个头采用统一的匹配度量，将一对一头的超参数（ $\alpha_{o2o}, \beta_{o2o}$ ）设置为与一对多头（ $\alpha_{o2m}, \beta_{o2m}$ ）成比例，具体为 $\alpha_{o2o} = r \cdot \alpha_{o2m}$ 和 $\beta_{o2o} = r \cdot \beta_{o2m}$ 。这确保一对多头的最佳正样本也是对头头的最佳正样本，协调两分支的优化过程，缩小监督差距。这种一致性对一对一头学习高质量预测至关重要，使其与一对多头的优异性能保持对齐。

实验

YOLOv10 在所有模型尺度上均达到最先进的性能与端到端延迟表现，优于 YOLOv8、YOLOv6、YOLOv9、YOLO-MS、Gold-YOLO 和 RT-DETR。在 COCO 上，YOLOv10-N/S 相比 YOLOv6-3.0-N/S 实现 1.5/2.0 AP 提升，参数减少 51%/61%，计算量降低 41%/52%；YOLOv10-L 相比 Gold-YOLO-L 参数减少 68%，延迟降低 32%，AP 提升 1.4%；YOLOv10-S/X 在相近精度下分别比 RT-DETR-R18/R101 快 1.8× 和 1.3×。
消融实验表明，采用一致双重分配的无 NMS 训练使 YOLOv10-S 的端到端延迟降低 4.63ms，同时保持 44.3% AP；效率驱动设计使 YOLOv10-M 参数减少 11.8M，FLOPs 降低 20.8 GFLOPs，延迟减少 0.65ms。
一致匹配度量通过对齐一对多与一对一头之间的监督，优化了 AP-延迟权衡，消除了超参数调优的需要。
基于精度驱动的设计引入大核卷积与部分自注意力（PSA）模块，使 YOLOv10-S 的 AP 分别提升 0.4% 和 1.4%，延迟增加极小；PSA 相比 Transformer 块实现 0.3% AP 提升与 0.05ms 延迟降低。
基于秩引导的模块设计使高冗余阶段高效集成 CIB，未造成性能损失，显著提升模型效率。
训练成本分析显示，尽管训练 500 轮，YOLOv10 仍保持高吞吐量，无 NMS 训练仅增加 18s/轮开销，优于其他训练 300 轮的模型。
在 CPU（OpenVINO）上，YOLOv10 展现出最先进的性能-效率权衡。
可视化结果验证了模型在低光、旋转、密集目标等复杂场景下的鲁棒检测能力。

实验结果表明，双重标签分配与一致匹配度量显著改善了 AP-延迟权衡，当两者同时应用时达到最佳性能，实现 44.3% AP 与 2.44ms 延迟。消融研究进一步证明，效率驱动设计在保持竞争力性能的同时减少参数与 FLOPs，凸显所提架构改进的有效性。

研究人员对比了 YOLOv10-M 与其他 YOLO 变体的训练效率，结果显示 YOLOv10-M 实现了每小时 17.2 轮的高训练吞吐量，在 8 块 NVIDIA 3090 GPU 上总训练时间为 29.1 小时。这表明，尽管采用 500 轮训练，YOLOv10 的训练成本仍远低于其他模型，具有可接受的训练开销。

研究人员通过不同模型变体的对比，评估了所提出的紧凑反向块（CIB）设计的有效性。结果表明，基于 CIB 的模型相比 IRB-DW 提升 0.8% AP，同时保持相近延迟，证明该模块设计在不增加计算成本的前提下有效提升了性能。

研究人员展示了 YOLOv10 在不同尺度下的延迟结果，表明模型越大，推理延迟越高。YOLOv10-N 延迟最低，为 6.19ms；YOLOv10-X 延迟最高，达 14.67ms，呈现出模型规模与延迟正相关的清晰趋势。

研究人员通过消融实验评估了所提无 NMS 训练与一致双重分配对 YOLOv10-S 的影响。结果表明，该方法将模型 AP 从 43.7% 提升至 44.4%，延迟仅增加 0.03ms，体现了精度与速度之间极小的权衡。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

Wang Ao Chen Hui Liu Lihao Chen Kai Lin Zijia

摘要

一句话总结

主要贡献

本文解决了 YOLO 系列因依赖非极大值抑制（NMS）进行后处理而导致的效率低下问题，提出了一种一致的双重分配策略，实现无 NMS 训练，支持一对一标签分配和一致的匹配度量，从而在低推理延迟下实现端到端部署，并保持竞争力的精度。
提出了一种整体效率-精度驱动的模型设计策略，系统性地优化 YOLO 的关键组件，包括轻量级分类头、空间-通道解耦下采样、基于秩引导的模块设计，以及高效的局部自注意力模块，显著减少计算冗余的同时提升模型能力。
在 COCO 数据集上的大量实验表明，YOLOv10 实现了最先进的性能-效率权衡：YOLOv10-S 在相近 AP 水平下比 RT-DETR-R18 快 1.8 倍；YOLOv10-B 在相同性能下延迟降低 46%，参数减少 25%。

引言

方法

实验

YOLOv10 在所有模型尺度上均达到最先进的性能与端到端延迟表现，优于 YOLOv8、YOLOv6、YOLOv9、YOLO-MS、Gold-YOLO 和 RT-DETR。在 COCO 上，YOLOv10-N/S 相比 YOLOv6-3.0-N/S 实现 1.5/2.0 AP 提升，参数减少 51%/61%，计算量降低 41%/52%；YOLOv10-L 相比 Gold-YOLO-L 参数减少 68%，延迟降低 32%，AP 提升 1.4%；YOLOv10-S/X 在相近精度下分别比 RT-DETR-R18/R101 快 1.8× 和 1.3×。
消融实验表明，采用一致双重分配的无 NMS 训练使 YOLOv10-S 的端到端延迟降低 4.63ms，同时保持 44.3% AP；效率驱动设计使 YOLOv10-M 参数减少 11.8M，FLOPs 降低 20.8 GFLOPs，延迟减少 0.65ms。
一致匹配度量通过对齐一对多与一对一头之间的监督，优化了 AP-延迟权衡，消除了超参数调优的需要。
基于精度驱动的设计引入大核卷积与部分自注意力（PSA）模块，使 YOLOv10-S 的 AP 分别提升 0.4% 和 1.4%，延迟增加极小；PSA 相比 Transformer 块实现 0.3% AP 提升与 0.05ms 延迟降低。
基于秩引导的模块设计使高冗余阶段高效集成 CIB，未造成性能损失，显著提升模型效率。
训练成本分析显示，尽管训练 500 轮，YOLOv10 仍保持高吞吐量，无 NMS 训练仅增加 18s/轮开销，优于其他训练 300 轮的模型。
在 CPU（OpenVINO）上，YOLOv10 展现出最先进的性能-效率权衡。
可视化结果验证了模型在低光、旋转、密集目标等复杂场景下的鲁棒检测能力。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

YOLOv10：实时端到端目标检测

Wang Ao Chen Hui Liu Lihao Chen Kai Lin Zijia4 more

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

YOLOv10：实时端到端目标检测

Wang Ao Chen Hui Liu Lihao Chen Kai Lin Zijia4 more

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Command Palette

YOLOv10：实时端到端目标检测

Wang Ao Chen Hui Liu Lihao Chen Kai Lin Zijia4 more

摘要

一句话总结

主要贡献

引言

方法

实验

用 AI 构建 AI

HyperAI Newsletters

Wang Ao Chen Hui Liu Lihao Chen Kai Lin Zijia

Wang Ao Chen Hui Liu Lihao Chen Kai Lin Zijia

Wang Ao Chen Hui Liu Lihao Chen Kai Lin Zijia