Nächster Token ist ausreichend: Realistische Bildqualität und ästhetische Bewertung mit multimodellen großen Sprachmodellen

Die rasante Ausweitung des mobilen Internets hat zu einer erheblichen Zunahme an nutzergenerierten Inhalten (User-Generated Content, UGC) in Form von Bildern geführt, wodurch die umfassende Bewertung dieser Bilder dringend und unverzichtbar geworden ist. In jüngster Zeit haben multimodale große Sprachmodelle (Multimodal Large Language Models, MLLMs) großes Potenzial bei der Bildqualitätsbewertung (Image Quality Assessment, IQA) und der ästhetischen Bildbewertung (Image Aesthetic Assessment, IAA) gezeigt. Trotz dieser Fortschritte bleiben zwei zentrale Herausforderungen bei der effektiven Bewertung der Qualität und Ästhetik von UGC-Bildern bestehen: 1) Ein einzelner Score ist unzureichend, um die hierarchische Wahrnehmung durch den Menschen adäquat zu erfassen. 2) Die Frage, wie MLLMs zur Generierung numerischer Scores – beispielsweise mittlerer Meinungsscores (Mean Opinion Scores, MOS) – effektiv eingesetzt werden können, bleibt weiterhin offen. Um diese Herausforderungen anzugehen, stellen wir ein neuartiges Datenset vor, das als Realistic image Quality and Aesthetic (RealQA) bezeichnet wird und 14.715 UGC-Bilder umfasst, die jeweils mit 10 feinkörnigen Attributen annotiert sind. Diese Attribute reichen über drei Ebenen: niedrige Ebene (z. B. Bildschärfe), mittlere Ebene (z. B. Integrität des Motivs) und hohe Ebene (z. B. Komposition). Zusätzlich führen wir eine Reihe tiefergehender und umfassender Untersuchungen durch, um effektiv numerische Scores mit Hilfe von MLLMs vorherzusagen. Überraschenderweise erreicht das Next-Token-Paradigma mit der Vorhersage lediglich zweier zusätzlicher signifikanter Ziffern eine state-of-the-art (SOTA)-Leistung. Darüber hinaus ermöglicht die Kombination von Chain-of-Thought (CoT) mit gelernten feinkörnigen Attributen die Überlegenheit des vorgeschlagenen Ansatzes gegenüber bestehenden SOTA-Methoden auf fünf öffentlichen Datensätzen für IQA und IAA, wobei eine hervorragende Interpretierbarkeit und starke Zero-Shot-Verallgemeinerungsfähigkeit für die Videoqualitätsbewertung (Video Quality Assessment, VQA) nachgewiesen werden. Der Quellcode und das Datenset werden veröffentlicht.