HyperAI超神经

YOLOE:实时看见一切

一、教程简介

YOLOE 是由清华大学研究团队于 2025 年提出的一种新型实时视觉模型,旨在实现「实时看见一切」的目标。它继承了 YOLO 系列模型的实时高效特性,并在此基础上深度融合了零样本学习与多模态提示能力,能够支持文本、视觉和无提示等多种场景下的目标检测与分割。相关论文成果为「YOLOE: Real-Time Seeing Anything」。

核心功能

  1. 任意文本类型 文本提示示例
  2. 多模态提示
    • 视觉提示(框/点/手绘形状/参考图) 视觉提示示例
  3. 全自动无提示检测 – 自动识别场景对象 无提示示例

演示环境:YOLOv8e/YOLOv11e 系列 + RTX4090

二、运行步骤

1. 启动容器后点击 API 地址即可进入 Web 界面

若显示「Bad Gateway」,这表示模型正在初始化,请等待约 1-2 分钟后刷新页面。

2.YOLOE 功能演示

1. 文本提示检测

  • 任意文本类型
  • 自定义提示词:允许用户输入任意文本(识别效果可能因语义复杂度而异)
文本提示示例1
文本提示示例2

2. 多模态视觉提示

  • 🟦 框选检测 (bboxes)
    bboxes:例如上传一个包含很多人的图像,想检测人的图像,使用 bboxes 将一个人框起上,推理时模型就会根据 bboxes 的内容识别图像中所有的人。
    可以画多个 bboxes,以便得到更准确的视觉提示。
  • ✏️ 点选/手绘区域 (masks)
    masks:例如上传一个包含很多人的图像,想检测人的图像,使用 masks 将一个人涂抹,推理时模型就会根据 masks 的内容识别图像中所有的人。
    可以画多个 masks,以便得到更准确的视觉提示。
  • 🖼️ 参考图比对 (Intra/Cross)
    Intra:在当前图像上操作 bboxes 或者 masks,并在当前图像上推理。
    Cross:在当前图像上操作 bboxes 或者 masks,并在其他图像上推理。

核心概念

模式功能说明应用场景
Intra-image单图内对象关系建模局部目标精确定位
Cross-image跨图像特征匹配相似物体检索
框选检测示例
手绘提示示例
参考图比对示例

3. 全自动无提示检测

  • 🔍  智能场景解析:自动识别图像中全部显著物体
  • 🚀  零配置启动:无需任何提示输入即可工作
全自动检测1
全自动检测2

交流探讨

🖌️ 如果大家看到优质项目,欢迎后台留言推荐!另外,我们还建立了教程交流群,欢迎小伙伴们扫码备注【SD 教程】入群探讨各类技术问题、分享应用效果↓