
摘要
我们介绍了YOLO,一种新的目标检测方法。以往的目标检测研究通常将分类器重新用于检测任务。而我们则将目标检测视为一个回归问题,旨在预测空间上分离的边界框及其相关的类别概率。通过一次评估,单个神经网络可以直接从整幅图像中预测出边界框和类别概率。由于整个检测流程由单一网络构成,因此可以针对检测性能进行端到端的优化。我们的统一架构极其快速。基础版YOLO模型可以在实时条件下以每秒45帧的速度处理图像。较小版本的网络Fast YOLO更是达到了惊人的每秒155帧的处理速度,同时其平均精度均值(mAP)仍比其他实时检测器高出一倍。与当前最先进的检测系统相比,YOLO在定位误差方面略高,但在不存在目标的情况下误检的概率远低于其他方法。最后,YOLO能够学习非常普遍的目标表示。在从自然图像泛化到艺术作品时,无论是皮卡索数据集还是人物艺术数据集,YOLO的表现都远远优于所有其他检测方法,包括DPM和R-CNN。