
摘要
目前有大量被宣称可提升卷积神经网络(CNN)准确率的特征。然而,这些特征在大规模数据集上的实际组合测试以及理论依据仍需进一步验证。部分特征仅适用于特定模型或特定任务,或仅在小规模数据集上有效;而另一些特征,如批归一化(batch normalization)和残差连接(residual connections),则具有广泛的适用性,可应用于大多数模型、任务和数据集。我们假设以下特征属于具有普适性的通用技术:加权残差连接(Weighted-Residual-Connections, WRC)、跨阶段部分连接(Cross-Stage-Partial connections, CSP)、跨小批量归一化(Cross mini-Batch Normalization, CmBN)、自对抗训练(Self-adversarial-training, SAT)以及Mish激活函数。在本研究中,我们引入了多项新特征:WRC、CSP、CmBN、SAT、Mish激活函数、Mosaic数据增强、DropBlock正则化以及CIoU损失函数,并对其中部分特征进行组合优化,最终在MS COCO数据集上实现了当前最先进的性能:平均精度(AP)达43.5%(AP50为65.7%),同时在Tesla V100 GPU上达到约65帧/秒(FPS)的实时推理速度。相关源代码已开源,地址为:https://github.com/AlexeyAB/darknet。