13 天前
看得更清,才能看得更准:基于分层自动缩放网络的人体与物体解析
{Liang-Chieh Chen, Fangting Xia, Peng Wang, Alan L. Yuille}

摘要
从自然图像中将结构化对象(如人和动物)解析为语义部件(如躯干、头部、四肢等)是计算机视觉领域一个具有挑战性且基础性的问题。其主要难点在于对象及其对应部件在尺度和位置上存在极大的变化性。即使在尺度与位置估计上出现微小误差,也会显著降低解析结果的质量,并导致边界细节的错误。为应对这些挑战,我们提出了一种“分层自动缩放网络”(Hierarchical Auto-Zoom Net, HAZN),该网络能够自适应地匹配对象及其部件的局部尺度。HAZN由两个“自动缩放网络”(Auto-Zoom Net, AZN)串联构成,每个AZN均采用全卷积网络结构,执行两项任务:(1)预测对象实例(第一层AZN)或其部件(第二层AZN)的位置与尺度;(2)对预测出的对象实例或部件区域进行部件得分估计。该模型能够自适应地“缩放”(重采样)预测的图像区域至其合适的尺度,从而实现对解析结果的精细化优化。我们在PASCAL部件数据集上对人、马和牛进行了大量实验。对于人体解析任务,我们的方法在mIOU指标上相比现有最先进方法显著提升了5%,尤其在小尺度实例和小部件的分割上表现更为优越。在牛和马的解析任务中,我们也获得了与替代方法相比类似的性能提升。综上所述,先对整体对象进行缩放、再对部件进行局部缩放的策略极为有效。此外,该方法还实现了对图像不同区域以不同尺度进行自适应处理,从而避免了传统方法中必须对整幅图像进行统一缩放所带来的计算资源浪费。