
摘要
我们研究了一个重要的任务,即实现高效且有效的语义图像分割。特别是,我们将一种强大的语义分割架构——RefineNet 进行了改进,使其更加紧凑,甚至适用于需要在高分辨率输入上实现实时性能的任务。为此,我们识别了原始架构中计算成本较高的模块,并提出了两项修改措施,旨在减少模型参数和浮点运算的数量。通过这些措施,我们在几乎不损失性能的情况下实现了超过两倍的模型压缩。我们的最快模型在 512x512 分辨率的输入下,在普通 GPU 上的速度从 20 帧每秒(FPS)提升到了 55 帧每秒,同时在 PASCAL VOC 测试集上达到了稳定的 81.1% 平均交并比(mean IoU)。而我们最慢的模型速度也从原来的 17 帧每秒提高到了 32 帧每秒,在同一数据集上展示了 82.7% 的平均交并比。此外,我们还展示了该方法可以轻松与轻量级分类网络结合:使用一个仅包含 3.3M 参数且浮点运算量仅为 9.3B 的模型,在 PASCAL VOC 数据集上达到了 79.2% 的平均交并比。