YOLO-World:实现实时开放词汇对象检测的新突破
7 days ago
YOLO系列检测器以其高效和实用的特点在物体检测领域备受推崇,但它们依赖于预设和训练过的物体类别,限制了在开放场景中的应用。为了克服这一限制,研究人员近期提出了一种名为YOLO-World的创新方法,该方法通过视觉-语言建模和大规模数据集预训练,增强了YOLO的开放词汇物体检测能力。 YOLO-World的核心改进在于引入了一个新的可重参数化视觉-语言路径聚合网络(RepVL-PAN)以及区域-文本对比损失。这些改进使得模型能够有效地结合视觉和语言信息,在零样本的情况下检测多种类型的物体,并且具备高效率。实验结果显示,YOLO-World在具有挑战性的LVIS数据集上达到了35.4的平均精度(AP),并且在V100 GPU上实现了每秒52帧(FPS)的速度,相比许多现有的领先方法在准确性和速度方面都有所提升。 除了在基本的物体检测任务上的优异表现外,经过微调的YOLO-World还在几个下游任务中取得了显著成就,包括物体检测和开放词汇实例分割。这种方法的应用不仅提升了YOLO系列检测器的灵活性,还拓宽了其在现实世界中的适用范围。 目前,YOLO-World的工作仍在进行中,研究团队已经提供了代码和模型,供感兴趣的开发者和研究人员下载使用。YOLO-World的成功案例进一步证明了多模态学习在计算机视觉领域的巨大潜力,特别是在需要处理未见过物体的开放场景中。