HyperAIHyperAI
vor 11 Tagen

Untersuchung von CLIP zur Beurteilung des Aussehens und des Gefühls von Bildern

Jianyi Wang, Kelvin C.K. Chan, Chen Change Loy
Untersuchung von CLIP zur Beurteilung des Aussehens und des Gefühls von Bildern
Abstract

Die Messung der Wahrnehmung visueller Inhalte stellt ein lang bestehendes Problem im Bereich des Computer Vision dar. Zahlreiche mathematische Modelle wurden entwickelt, um das Aussehen oder die Qualität einer Abbildung zu bewerten. Trotz der Effektivität dieser Werkzeuge bei der Quantifizierung von Degradationen wie Rauschen oder Unschärfe bleibt eine enge Verbindung zu menschlicher Sprache jedoch schwach. Bei abstrakteren Wahrnehmungen, etwa dem „Gefühl“ visueller Inhalte, können bestehende Methoden nur auf überwachte Modelle zurückgreifen, die explizit mit gelabelten Daten trainiert wurden, die durch aufwändige Nutzerstudien gesammelt wurden. In diesem Paper gehen wir über die herkömmlichen Paradigmen hinaus und untersuchen die reiche visuelle Sprachvorwissen, die in Contrastive Language-Image Pre-training (CLIP)-Modellen enthalten ist, um sowohl die Qualitätswahrnehmung (Look) als auch abstrakte Wahrnehmungen (Feel) von Bildern in einer zero-shot-Weise zu bewerten. Insbesondere diskutieren wir effektive Prompt-Entwürfe und zeigen eine wirksame Strategie zur Paarung von Prompts auf, um dieses Vorwissen optimal zu nutzen. Zudem präsentieren wir umfangreiche Experimente an kontrollierten Datensätzen und Benchmark-Daten für die Bildqualitätsbewertung (Image Quality Assessment, IQA). Unsere Ergebnisse zeigen, dass CLIP bedeutungsvolles Vorwissen erfasst, das sich gut auf verschiedene Wahrnehmungsaufgaben generalisieren lässt. Der Quellcode ist unter https://github.com/IceClear/CLIP-IQA verfügbar.

Untersuchung von CLIP zur Beurteilung des Aussehens und des Gefühls von Bildern | Neueste Forschungsarbeiten | HyperAI