2 个月前

轻量级RefineNet用于实时语义分割

Vladimir Nekrasov; Chunhua Shen; Ian Reid

摘要

我们研究了一个重要的任务，即实现高效且有效的语义图像分割。特别是，我们将一种强大的语义分割架构——RefineNet 进行了改进，使其更加紧凑，甚至适用于需要在高分辨率输入上实现实时性能的任务。为此，我们识别了原始架构中计算成本较高的模块，并提出了两项修改措施，旨在减少模型参数和浮点运算的数量。通过这些措施，我们在几乎不损失性能的情况下实现了超过两倍的模型压缩。我们的最快模型在 512x512 分辨率的输入下，在普通 GPU 上的速度从 20 帧每秒（FPS）提升到了 55 帧每秒，同时在 PASCAL VOC 测试集上达到了稳定的 81.1% 平均交并比（mean IoU）。而我们最慢的模型速度也从原来的 17 帧每秒提高到了 32 帧每秒，在同一数据集上展示了 82.7% 的平均交并比。此外，我们还展示了该方法可以轻松与轻量级分类网络结合：使用一个仅包含 3.3M 参数且浮点运算量仅为 9.3B 的模型，在 PASCAL VOC 数据集上达到了 79.2% 的平均交并比。