
摘要
尽管近期在图像质量评估(IQA)领域的努力已取得令人鼓舞的成果,但与人类视觉系统(HVS)相比,仍存在显著差距。一个重要的差异在于人类能够在全参考(FR)和无参考(NR)任务之间无缝切换,而现有的模型则局限于执行FR或NR任务之一。这种差异意味着需要设计两个独立的系统,从而大大削弱了模型的通用性。因此,我们的研究重点在于将FR和NR IQA统一到一个框架下。具体而言,我们首先使用编码器从输入图像中提取多级特征。然后提出了一种层次注意力(Hierarchical Attention, HA)模块作为FR和NR输入的通用适配器,以建模每个编码器阶段的空间失真。此外,考虑到不同的失真对编码器各阶段的影响不同,并且会不同程度地损害图像的语义意义,我们还提出了一种语义失真感知(Semantic Distortion Aware, SDA)模块来分析编码器浅层和深层之间的特征相关性。通过采用HA和SDA模块,所提出的网络能够有效执行FR和NR IQA任务。当我们的模型分别在NR或FR IQA任务上独立训练时,其性能优于现有模型,并达到当前最佳水平。此外,当同时在NR和FR IQA任务上进行联合训练时,该模型进一步提升了NR IQA的性能,并在最先进的FR IQA中实现了相当的性能。只需一次训练即可完成两种IQA任务。代码将在以下地址发布:https://github.com/BarCodeReader/YOTO。