
摘要
模型效率在计算机视觉领域日益重要。本文系统地研究了目标检测任务中神经网络架构设计的选择,并提出了多项关键优化以提升模型效率。首先,我们提出了一种加权双向特征金字塔网络(Weighted Bi-directional Feature Pyramid Network, BiFPN),该结构能够实现高效且快速的多尺度特征融合;其次,我们引入了一种复合缩放方法(Compound Scaling Method),可统一地同时扩展主干网络(backbone)、特征网络以及边界框/类别预测网络的分辨率、深度与宽度。基于上述优化策略以及更优的主干网络,我们构建了一类新型目标检测器——EfficientDet,其在多种资源约束条件下均显著优于以往方法,展现出卓越的效率表现。具体而言,在单模型、单尺度设置下,EfficientDet-D7 在 COCO test-dev 数据集上达到了 55.1 的 AP(平均精度)性能,仅需 77M 参数量和 410B 次浮点运算(FLOPs),相比此前的检测器,模型尺寸缩小了 4 至 9 倍,计算量减少 13 至 42 倍。代码已开源,地址为:https://github.com/google/automl/tree/master/efficientdet。