
최근 이미지 품질 평가(IQA) 분야에서 이루어진 노력들이 유망한 성능을 달성했음에도 불구하고, 여전히 인간의 시각 시스템(HVS)과 비교하여 상당한 차이가 존재합니다. 이 차이 중 하나는 인간이 완전 참조(FR)와 무참조(NR) 작업 사이를 원활하게 전환하는 반면, 기존 모델들은 FR 또는 NR 작업 중 하나에만 제약되어 있다는 점입니다. 이러한 차이는 두 개의 별도 시스템을 설계할 필요성을 내포하며, 이로 인해 모델의 다용성(versatility)이 크게 감소됩니다. 따라서, 우리의 초점은 단일 프레임워크 하에 FR과 NR IQA를 통합하는 것입니다.구체적으로, 먼저 인코더를 사용하여 입력 이미지에서 다중 수준의 특징을 추출합니다. 그런 다음 계층적 주의(Hierarchical Attention, HA) 모듈을 제안하여 각 인코더 단계에서 공간적 왜곡(spatial distortion)을 모델링하기 위한 보편적 어댑터로 활용합니다. 또한, 서로 다른 왜곡이 인코더 단계를 다르게 오염시키고 이미지의 의미론적 의미(semantic meaning)를 손상시킨다는 점을 고려하여, 의미론적 왜곡 인식(Semantic Distortion Aware, SDA) 모듈을 제안하여 인코더의 얕은 층과 깊은 층 간의 특징 상관관계를 검토합니다. HA와 SDA를 도입함으로써 제안된 네트워크는 효과적으로 FR 및 NR IQA 작업을 수행할 수 있습니다.우리가 제안한 모델이 NR 또는 FR IQA 작업에 독립적으로 훈련될 때, 기존 모델들을 능가하고 최신 성능(state-of-the-art performance)을 달성합니다. 더욱이, NR과 FR IQA 작업에 공동으로 훈련될 때에는 NR IQA 성능을 더욱 향상시키면서 최신 FR IQA 성능과 맞먹는 결과를 보여줍니다. 두 가지 IQA 작업 모두 수행하기 위해 한 번만 훈련하면 됩니다. 코드는 다음과 같은 링크에서 공개될 예정입니다: https://github.com/BarCodeReader/YOTO.