
초록
시각 콘텐츠에 대한 인식을 측정하는 것은 컴퓨터 비전 분야에서 오랫동안 해결되지 않은 과제이다. 이미지의 외관이나 품질을 평가하기 위해 다양한 수학적 모델이 개발되어 왔다. 이러한 도구들은 노이즈, 흐림 정도와 같은 왜곡을 정량화하는 데 있어 효과적이지만, 인간의 언어와의 연관성은 여전히 약하다. 특히 시각 콘텐츠의 감성적 인식(Feel)과 같은 더 추상적인 인지에 관해서는 기존 방법들이 인간의 평가 데이터를 수작업으로 수집하여 명시적으로 레이블링된 데이터로 훈련된 감독 모델에 의존할 수밖에 없다. 본 논문에서는 이러한 전통적 접근을 넘어서, 대조적 언어-이미지 사전 훈련(Contrastive Language-Image Pre-training, CLIP) 모델이 내포한 � богrich한 시각 언어 사전 지식을 활용하여 이미지의 품질 인식(look)과 추상적 인식(feel)을 제로샷(Zero-shot) 방식으로 평가하는 새로운 접근을 탐구한다. 특히 효과적인 프롬프트 설계 방법을 논의하고, 사전 지식을 효율적으로 활용하기 위한 효과적인 프롬프트 쌍 전략을 제시한다. 또한 통제된 데이터셋과 이미지 품질 평가(IQA) 기준에서 광범위한 실험을 수행하였다. 실험 결과는 CLIP 모델이 다양한 인지 평가에 잘 일반화되는 의미 있는 사전 지식을 포착하고 있음을 보여준다. 코드는 https://github.com/IceClear/CLIP-IQA 에서 제공된다.