17 天前

ScaleNAS:面向视觉识别的尺度感知表征的一次性学习

Hsin-Pai Cheng, Feng Liang, Meng Li, Bowen Cheng, Feng Yan, Hai Li, Vikas Chandra, Yiran Chen
ScaleNAS:面向视觉识别的尺度感知表征的一次性学习
摘要

不同身体部位和物体在尺寸上的尺度差异,是视觉识别任务中的一项挑战性问题。现有方法通常为每个任务设计专用的主干网络,或采用神经架构搜索(Neural Architecture Search, NAS)来应对这一挑战。然而,这些方法在架构设计或搜索空间上均存在显著限制。为解决上述问题,本文提出 ScaleNAS,一种用于探索尺度感知表征的一次性学习方法。ScaleNAS 通过搜索多尺度特征聚合机制,实现对多个任务的并行优化。该方法采用灵活的搜索空间,支持任意数量的网络模块及跨尺度特征融合。为应对灵活空间带来的高昂搜索成本,ScaleNAS 采用基于分组采样与进化搜索驱动的一次性学习策略,构建多尺度超网络(multi-scale supernet)。在无需额外微调的情况下,ScaleNet 可直接部署于各类视觉识别任务,并展现出卓越性能。本文利用 ScaleNAS 构建了两种高分辨率模型:面向人体姿态估计的 ScaleNet-P 与面向语义分割的 ScaleNet-S。在两项任务中,ScaleNet-P 与 ScaleNet-S 均显著优于现有的手工设计方法及基于 NAS 的方法。在自下而上的姿态估计任务中,ScaleNet-P 的表现超越了当前最先进的 HigherHRNet。其中,ScaleNet-P4 在 COCO test-dev 数据集上达到了 71.6% 的 AP(Average Precision),刷新了该任务的最新纪录,实现了新的最先进水平。