
摘要
图像美学评估是一项具有挑战性的任务。近年来,深度卷积神经网络(ConvNet)方法在美学评估方面展现出良好的性能。然而,这些深度ConvNet方法的性能往往受限于神经网络仅能接受固定尺寸输入这一约束。为满足该要求,输入图像通常需经过裁剪、缩放或填充等变换操作,这些操作常常破坏图像构图,降低图像分辨率,或引入图像失真,从而损害原始图像的美学质量。本文提出一种保持构图的深度ConvNet方法,该方法可直接从原始尺寸和原始宽高比的输入图像中学习美学特征,无需任何图像预处理变换。具体而言,我们的方法在常规的卷积与池化层基础上引入自适应空间池化层(Adaptive Spatial Pooling Layer),从而直接处理具有原始尺寸和宽高比的输入图像。为进一步实现多尺度特征提取,我们设计了多分支自适应空间池化ConvNet架构(Multi-Net Adaptive Spatial Pooling ConvNet),该架构由多个具有不同自适应空间池化尺寸的子网络组成,并通过基于场景的聚合层有效融合多个子网络的预测结果。在大规模美学评估基准数据集AVA上的实验表明,所提方法显著提升了当前图像美学评估的最先进水平。