HyperAIHyperAI
il y a 11 jours

Exploration de CLIP pour évaluer l’aspect et la sensation des images

Jianyi Wang, Kelvin C.K. Chan, Chen Change Loy
Exploration de CLIP pour évaluer l’aspect et la sensation des images
Résumé

Mesurer la perception du contenu visuel constitue un problème ancien en vision par ordinateur. De nombreux modèles mathématiques ont été développés pour évaluer l’apparence ou la qualité d’une image. Malgré l’efficacité de ces outils dans la quantification de dégradations telles que le bruit ou le flou, cette quantification reste faiblement liée au langage humain. Lorsqu’il s’agit de perceptions plus abstraites, relatives au « ressenti » d’un contenu visuel, les méthodes existantes ne peuvent compter que sur des modèles supervisés entraînés explicitement à partir de données étiquetées obtenues par des études utilisateur fastidieuses. Dans cet article, nous allons au-delà des paradigmes conventionnels en explorant le riche préalable linguistique visuel intégré dans les modèles de pré-entraînement contraste entre langage et image (Contrastive Language-Image Pre-training, CLIP) afin d’évaluer, de manière zero-shot, à la fois la perception de qualité (apparence) et la perception abstraite (ressenti) des images. Plus précisément, nous proposons des conceptions efficaces de prompts et présentons une stratégie efficace de couplage de prompts pour exploiter ce préalable. Nous fournissons également des expérimentations étendues sur des jeux de données contrôlés ainsi que sur des benchmarks d’évaluation de la qualité d’image (Image Quality Assessment, IQA). Nos résultats montrent que CLIP capture des préalables significatifs qui se généralisent bien à diverses évaluations perceptuelles. Le code est disponible à l’adresse suivante : https://github.com/IceClear/CLIP-IQA.

Exploration de CLIP pour évaluer l’aspect et la sensation des images | Articles de recherche récents | HyperAI