3 个月前

YOLOv9:利用可编程梯度信息学习你想要学习的内容

Chien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao
YOLOv9:利用可编程梯度信息学习你想要学习的内容
摘要

当前的深度学习方法主要聚焦于如何设计最合适的损失函数,以使模型的预测结果尽可能接近真实标签(ground truth)。与此同时,还需设计合理的网络架构,以确保模型能够充分获取用于预测的必要信息。然而,现有方法往往忽视了一个关键事实:当输入数据经过逐层特征提取与空间变换时,大量信息会不可避免地丢失。本文深入探讨了深度网络中数据传输过程所引发的重要问题,即信息瓶颈(information bottleneck)与可逆函数(reversible functions)。为此,本文提出了“可编程梯度信息”(Programmable Gradient Information, PGI)的概念,以应对深度网络在实现多目标优化过程中所面临的多样化需求。PGI能够为目标任务提供完整的输入信息,用于计算损失函数,从而确保获得可靠的梯度信息,用于网络权重的更新。此外,本文还设计了一种新型轻量级网络架构——广义高效层聚合网络(Generalized Efficient Layer Aggregation Network, GELAN),该架构基于梯度路径规划思想构建。实验结果表明,GELAN在轻量级模型上显著提升了性能,充分验证了PGI的有效性。我们在MS COCO数据集上的目标检测任务中对所提出的GELAN与PGI进行了验证。结果表明,GELAN仅采用常规卷积操作,便实现了优于基于深度可分离卷积(depth-wise convolution)设计的当前最优方法的参数利用效率。PGI具有良好的通用性,适用于从轻量级到大型模型的多种网络结构。通过恢复完整的输入信息,PGI使得从零开始训练(train-from-scratch)的模型性能超越了依赖大规模预训练数据的当前最优模型。相关对比结果如图1所示。项目源代码已开源,地址为:https://github.com/WongKinYiu/yolov9。