HyperAI

YOLOv1 是目标检测领域的一座里程碑，其论文《You Only Look Once: Unified, Real-Time Object Detection》于2015年发布，首次提出了将目标检测任务视为单一回归问题的创新思路。在YOLOv1出现前，主流方法如R-CNN采用多阶段流程：先用选择性搜索生成候选区域，再用CNN提取特征，最后用SVM分类。这一过程耗时且难以实现实时检测。YOLOv1的核心思想是“只看一眼”——将整张图像划分为7×7的网格，每个网格负责预测两个边界框和类别概率，从而实现端到端、实时的检测。在数据标注方面，YOLOv1将图像划分为7×7=49个网格，每个网格对应一个目标向量。若物体中心落在某网格内，该网格负责预测该物体。目标向量共25维：前20维为20类PASCAL VOC数据集的one-hot编码，第21位为置信度（有物体时为1），第22-23位为边界框中心点的归一化坐标（相对于网格），第24-25位为宽高（也相对于网格）。所有网格的目标向量拼接成7×7×25的张量作为图像的标签。在预测阶段，YOLOv1为每个网格生成两个边界框，因此输出向量为30维（25+5），多出的5维用于第二个框。最终输出为30×7×7的张量，需在推理时通过置信度筛选最优框。 YOLOv1的网络结构由24个卷积层组成，无Batch Normalization，使用Leaky ReLU激活函数（负斜率0.1）。其骨干网络分为六个阶段：第一阶段使用7×7卷积与步长2，配合padding=3实现图像尺寸减半；后续阶段通过交替使用1×1、3×3卷积与最大池化逐步下采样。最终输出为1024×7×7的特征图，接两个全连接层，输出1470维（即30×7×7），再reshape为最终预测张量。在PyTorch实现中，通过定义ConvBlock模块构建骨干网络，依次连接各阶段卷积层，并在最后接入全连接层与Dropout（0.5）防止过拟合。整个模型通过前向传播将输入图像从3×448×448逐步处理为1×1470，再reshape为30×7×7，完成检测输出。尽管YOLOv1在当时已实现高精度与实时性，但其小目标检测能力较弱。后续版本如YOLOv2、v3、v4、v5、v8等不断优化，引入FPN、Anchor机制、CIoU等，而YOLOv1作为起点，展现了“统一、快速、端到端”的设计哲学，奠定了现代实时目标检测的基石。其代码已开源，可作为学习深度学习与目标检测的绝佳范例。

相关链接

相关链接

相关链接

ICLR 2026 丨单任务可训练参数减少 125 倍！新方法 Task Tokens 助力具身智能提升复杂任务能力

ICLR 2026 丨单任务可训练参数减少 125 倍！新方法 Task Tokens 助力具身智能提升复杂任务能力

Command Palette

YOLOv1 首次亮相：揭开目标检测的革命性时刻

相关链接

Command Palette

YOLOv1 首次亮相：揭开目标检测的革命性时刻

相关链接

Command Palette

YOLOv1 首次亮相：揭开目标检测的革命性时刻

相关链接

ICLR 2026 丨单任务可训练参数减少 125 倍！新方法 Task Tokens 助力具身智能提升复杂任务能力

ICLR 2026 丨单任务可训练参数减少 125 倍！新方法 Task Tokens 助力具身智能提升复杂任务能力