Transformers, 상대적 순위 및 자기 일관성을 통한 비참조 이미지 품질 평가

비참조 이미지 품질 평가(No-Reference Image Quality Assessment, NR-IQA)의 목적은 주관적 평가에 부합하는 인지적 이미지 품질을 추정하는 것이다. 그러나 원본 참조 이미지가 존재하지 않기 때문에 이는 여전히 복잡하고 해결되지 않은 문제이다. 본 논문에서는 입력 이미지에서 국소적 및 비국소적 특징을 동시에 추출할 수 있도록 컨볼루셔널 신경망(Convolutional Neural Networks, CNN)과 트랜스포머(Transformer)의 자기주의(self-attention) 메커니즘을 융합한 하이브리드 접근 방식을 활용하여 NR-IQA 과제를 해결하기 위한 새로운 모델을 제안한다. 먼저 CNN을 통해 이미지의 국소 구조 정보를 추출하고, 추출된 CNN 특징들 간의 국소성 편향(locality bias)을 완화하여 이미지의 비국소적 표현을 얻기 위해, 이러한 특징들을 트랜스포머 모델의 순차적 입력으로 취급하여 모델링한다. 또한, 주관적 평가 점수와 객관적 점수 간의 단조성 상관관계를 강화하기 위해, 각 배치 내 이미지 간의 상대적 거리 정보를 활용하여 이미지 간의 상대적 순위를 강제한다. 마지막으로, NR-IQA 모델의 성능이 입력에 등변 변환(equivariant transformation, 예: 수평 반전)을 적용할 경우 저하됨을 관찰하였다. 이를 해결하기 위해, 자기일관성(self-consistency)을 자율학습(self-supervision)의 원천으로 활용하여 NR-IQA 모델의 안정성을 향상시키는 방법을 제안한다. 구체적으로, 각 이미지와 그에 대한 수평 반전 변환된 이미지에 대해 품질 평가 모델의 출력 간 자기일관성을 강제함으로써 풍부한 자율학습 정보를 활용하고 모델의 불확실성을 줄인다. 제안된 방법의 효과를 입증하기 위해, 합성 및 실제 이미지를 포함한 7개의 표준 IQA 데이터셋에서 실험을 수행하였으며, 다양한 데이터셋에서 최신 기술(SOTA, State-of-the-Art) 수준의 성능을 달성함을 보였다.