Q-Align: Die Lehre von LMMs für visuelle Bewertung durch diskrete textbasierte Ebenen

Die Explosion visuellen Inhalts im Internet unterstreicht die Notwendigkeit einer genauen Maschinenbewertung, um robuste Bewertungen für verschiedene Arten von visuellem Inhalt zu erstellen. Während jüngste Studien das außergewöhnliche Potenzial großer multimodaler Modelle (LMMs) in einem breiten Spektrum verwandter Bereiche gezeigt haben, untersuchen wir in dieser Arbeit, wie man sie lehren kann, visuelle Bewertungen anzupassen, die mit menschlichen Meinungen übereinstimmen. Wir beobachten, dass menschliche Beurteiler in subjektiven Studien nur diskrete, textbasierte Ebenen lernen und beurteilen. Daher schlagen wir vor, diesen subjektiven Prozess nachzuahmen und LMMs mit textbasierten Bewertungsebenen anstelle von Scores zu trainieren. Das vorgeschlagene Q-Align erreicht den aktuellen Stand der Technik bei Aufgaben zur Bildqualitätsbewertung (IQA), Bildästhetikbewertung (IAA) und Videoqualitätsbewertung (VQA) unter der ursprünglichen LMM-Struktur. Mit dem Lehrplan vereinen wir die drei Aufgaben in ein einziges Modell, das OneAlign genannt wird. In unseren Experimenten zeigen wir den Vorteil des auf diskreten Ebenen basierenden Lehrplans gegenüber varianten, die direkt auf Scores basieren, für LMMs. Unser Code und die vorab trainierten Gewichte sind unter https://github.com/Q-Future/Q-Align veröffentlicht.