摘要
包含显式信息(如图像属性和场景语义)的聚合结构在智能系统中用于视觉数据美学评估方面具有高效且广泛的应用。然而,由于人工标注和专家设计成本高昂,此类有用信息往往难以获取。本文提出一种新颖的多块(Multi-Patch, MP)聚合方法,用于图像美学评估。与现有先进方法不同,后者通常通过引入多种视觉属性来增强MP聚合网络,本文仅使用美学标签(即美学正向或负向)以端到端的方式训练模型。为实现该目标,我们引入一种基于注意力机制的方法,在训练过程中自适应地调整每个图像块的权重,从而提升学习效率。此外,我们设计了一组包含三种典型注意力机制(即平均注意力、最小注意力和自适应注意力)的目标函数,并在Aesthetic Visual Analysis(AVA)基准数据集上对其有效性进行了评估。实验结果表明,所提方法在性能上显著优于现有方法。通过消融实验,我们进一步验证了所提出注意力机制目标的有效性,并为美学评估系统的设计提供了有益启示。