주의(Attention)는 CNN이 더 잘 보게 도와준다: 주의 기반 하이브리드 이미지 품질 평가 네트워크

이미지 품질 평가(Image Quality Assessment, IQA) 알고리즘은 이미지 품질에 대한 인간의 인지 수준을 정량화하는 것을 목표로 한다. 그러나 최근 생성적 적대 신경망(Generative Adversarial Network, GAN)을 통해 생성된 왜곡 이미지(일반적으로 현실감 있는 질감을 지님)에 대해 평가할 경우, 기존의 IQA 알고리즘은 성능 저하를 겪는다는 문제가 있다. 본 연구에서는 이러한 성능 저하의 원인이 IQA 모델의 핵심 구조, 즉 이미지 패치 단위의 예측 방식에 있음을 가정한다. 기존의 패치 수준 예측 방법은 각각의 독립된 이미지 패치를 입력으로 받아 별도로 점수를 계산하지만, 패치 간 공간적 관계를 모델링하지 못한다는 한계가 있다. 이를 해결하기 위해, GAN 기반 이미지 품질 평가 작업에서 더 뛰어난 성능을 발휘할 수 있도록 주목적 기반 하이브리드 이미지 품질 평가 네트워크(Attention-based Hybrid Image Quality Assessment Network, AHIQ)를 제안한다. 먼저, 시각적 변형 모델(Vision Transformer, ViT)과 합성곱 신경망(Convolutional Neural Network, CNN)의 이중 브랜치 아키텍처를 도입하여 특징 추출을 수행한다. 이 하이브리드 구조는 ViT가 포착하는 패치 간 상호작용 정보와 CNN이 제공하는 국소적인 질감 세부 정보를 결합함으로써 보다 풍부한 특징 표현을 가능하게 한다. 또한, ViT 브랜치로부터 제공되는 의미 정보를 활용해 변형 가능 합성곱(Deformable Convolution)을 적용함으로써, 얕은 레이어의 CNN 특징이 시각적으로 주목할 만한 영역에 더 집중되도록 한다. 마지막으로, 패치 단위 점수 예측 모듈을 사용하여 최종 이미지 품질 점수를 도출한다. 실험 결과, 제안한 모델은 네 가지 표준 IQA 데이터셋에서 최신 기술(SOTA)을 초월하며, NTIRE 2022 인간 인지 이미지 품질 평가 챌린지의 전반적인 참조(Full Reference, FR) 트랙에서 1위를 차지하였다.