注意力机制助力CNN更优感知:基于注意力的混合图像质量评估网络

图像质量评估(Image Quality Assessment, IQA)算法旨在量化人类对图像质量的主观感知。然而,在评估由生成对抗网络(Generative Adversarial Network, GAN)生成的、具有逼真纹理的失真图像时,现有方法普遍存在性能下降的问题。本文提出,这一性能瓶颈源于现有IQA模型主干网络的局限性:当前基于块(patch-level)预测的模型通常将图像划分为独立的图像块作为输入,分别计算各块的得分,但缺乏对图像块之间空间关系的建模能力。针对该问题,本文提出一种基于注意力机制的混合图像质量评估网络(Attention-based Hybrid Image Quality Assessment Network, AHIQ),以提升在基于GAN生成图像上的评估性能。首先,AHIQ采用双分支架构,包含一个视觉Transformer(Vision Transformer, ViT)分支和一个卷积神经网络(Convolutional Neural Network, CNN)分支,分别用于提取全局上下文信息与局部纹理特征。该混合架构融合了ViT对图像块间长程依赖关系的捕捉能力与CNN对局部细节的敏感性。为进一步增强浅层CNN特征对视觉显著区域的关注,本文引入可变形卷积(deformable convolution),并利用ViT分支提供的语义信息引导其感受野的自适应调整。最后,通过一个基于块的分数预测模块,融合多尺度特征并生成最终的图像质量分数。实验结果表明,所提AHIQ模型在四个标准IQA数据集上均优于当前最先进的方法,并在NTIRE 2022感知图像质量评估挑战赛的全参考(Full Reference, FR)赛道中排名第一,验证了其在复杂生成图像质量评估任务中的优越性与鲁棒性。