一、教程简介

YOLOE 是由清华大学研究团队于 2025 年提出的一种新型实时视觉模型，旨在实现「实时看见一切」的目标。它继承了 YOLO 系列模型的实时高效特性，并在此基础上深度融合了零样本学习与多模态提示能力，能够支持文本、视觉和无提示等多种场景下的目标检测与分割。相关论文成果为「YOLOE: Real-Time Seeing Anything」。

YOLO (You Only Look Once) 自 2015 年推出以来，一直是目标检测和图像分割领域的佼佼者。以下是 YOLO 系列的演进历程及相关教程：

YOLOv2 (2016)：引入批量归一化、锚框和维度集群。
YOLOv3 (2018)：使用更高效的骨干网络、多锚和空间金字塔池。
YOLOv4 (2020)：引入 Mosaic 数据增强、无锚检测头和新的损失函数。→ 教程：DeepSOCIAL 基于 YOLOv4 与 sort 多目标跟踪实现人群距离监测
YOLOv5 (2020)：增加超参数优化、实验跟踪和自动导出功能。→ 教程：YOLOv5_deepsort 实时多目标跟踪模型
YOLOv6 (2022)：美团开源，广泛应用于自主配送机器人。
YOLOv7 (2022)：支持 COCO 关键点数据集的姿势估计。→教程：如何训练和使用自定义的 YOLOv7 模型
YOLOv8 (2023)：Ultralytics 发布，支持全方位的视觉 AI 任务。→ 教程：用自定义数据训练 YOLOv8
YOLOv9 (2024)：引入可编程梯度信息 (PGI) 和广义高效层聚合网络 (GELAN) 。
YOLOv10 (2024)：清华大学推出，引入端到端头，消除非最大抑制 (NMS) 要求。→ 教程：YOLOv10 实时端到端目标检测
YOLOv11(2024)：Ultralytics 最新模型，支持检测、分割、姿态估计、跟踪和分类。→ 教程：一键部署 YOLOv11
YOLOv12 🚀 NEW(2025)：速度与精度双巅峰，结合注意力机制的性能优势！

核心功能

任意文本类型

2. 多模态提示：

视觉提示（框/点/手绘形状/参考图）

全自动无提示检测 – 自动识别场景对象

演示环境：YOLOv8e/YOLOv11e 系列 + RTX4090

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

若显示「Bad Gateway」，这表示模型正在初始化，请等待约 1-2 分钟后刷新页面。

2.YOLOE 功能演示

1. 文本提示检测

任意文本类型
自定义提示词：允许用户输入任意文本（识别效果可能因语义复杂度而异）

2. 多模态视觉提示

🟦 框选检测 (bboxes)
bboxes：例如上传一个包含很多人的图像，想检测人的图像，使用 bboxes 将一个人框起上，推理时模型就会根据 bboxes 的内容识别图像中所有的人。
可以画多个 bboxes，以便得到更准确的视觉提示。
✏️ 点选/手绘区域 (masks)
masks：例如上传一个包含很多人的图像，想检测人的图像，使用 masks 将一个人涂抹，推理时模型就会根据 masks 的内容识别图像中所有的人。
可以画多个 masks，以便得到更准确的视觉提示。
🖼️ 参考图比对 (Intra/Cross)
Intra：在当前图像上操作 bboxes 或者 masks，并在当前图像上推理。
Cross：在当前图像上操作 bboxes 或者 masks，并在其他图像上推理。