11일 전

이미지의 시각적 인상과 분위기를 평가하기 위한 CLIP 탐색

Jianyi Wang, Kelvin C.K. Chan, Chen Change Loy
이미지의 시각적 인상과 분위기를 평가하기 위한 CLIP 탐색
초록

시각 콘텐츠에 대한 인식을 측정하는 것은 컴퓨터 비전 분야에서 오랫동안 해결되지 않은 과제이다. 이미지의 외관이나 품질을 평가하기 위해 다양한 수학적 모델이 개발되어 왔다. 이러한 도구들은 노이즈, 흐림 정도와 같은 왜곡을 정량화하는 데 있어 효과적이지만, 인간의 언어와의 연관성은 여전히 약하다. 특히 시각 콘텐츠의 감성적 인식(Feel)과 같은 더 추상적인 인지에 관해서는 기존 방법들이 인간의 평가 데이터를 수작업으로 수집하여 명시적으로 레이블링된 데이터로 훈련된 감독 모델에 의존할 수밖에 없다. 본 논문에서는 이러한 전통적 접근을 넘어서, 대조적 언어-이미지 사전 훈련(Contrastive Language-Image Pre-training, CLIP) 모델이 내포한 � богrich한 시각 언어 사전 지식을 활용하여 이미지의 품질 인식(look)과 추상적 인식(feel)을 제로샷(Zero-shot) 방식으로 평가하는 새로운 접근을 탐구한다. 특히 효과적인 프롬프트 설계 방법을 논의하고, 사전 지식을 효율적으로 활용하기 위한 효과적인 프롬프트 쌍 전략을 제시한다. 또한 통제된 데이터셋과 이미지 품질 평가(IQA) 기준에서 광범위한 실험을 수행하였다. 실험 결과는 CLIP 모델이 다양한 인지 평가에 잘 일반화되는 의미 있는 사전 지식을 포착하고 있음을 보여준다. 코드는 https://github.com/IceClear/CLIP-IQA 에서 제공된다.

이미지의 시각적 인상과 분위기를 평가하기 위한 CLIP 탐색 | 최신 연구 논문 | HyperAI초신경