Äquivalente Ähnlichkeit für Vision-Sprache-Grundmodellen

Diese Studie untersucht das Konzept der Äquivarianz in Vision-Sprache-Grundmodellen (VLMs), wobei der Fokus speziell auf der multimodalen Ähnlichkeitsfunktion liegt, die nicht nur das zentrale Trainingsziel darstellt, sondern auch die zentrale Leistungsfähigkeit zur Unterstützung nachgeschalteter Aufgaben bildet. Im Gegensatz zum bestehenden Bild-Text-Ähnlichkeitsziel, das nur zugeordnete Paare als ähnlich und nicht zugeordnete Paare als unähnlich klassifiziert, erfordert Äquivarianz zudem, dass die Ähnlichkeit treu den semantischen Veränderungen entspricht. Dadurch können VLMs besser auf feinabgestimmte und bisher nicht gesehene multimodale Kompositionen generalisieren. Die Modellierung von Äquivarianz ist jedoch herausfordernd, da die Ground-Truth-Werte für semantische Veränderungen schwer zu erfassen sind. Zum Beispiel ist unklar, in welchem Maße sich die Ähnlichkeit ändert, wenn bei einem Bild-Text-Paar zu einem Hund der Pixelwert von „Hund“ auf „Katze“ geändert wird. Um dies zu adressieren, schlagen wir EqSim vor – eine Regularisierungsverlustfunktion, die effizient aus zwei beliebigen zugeordneten Trainingspaaren berechnet werden kann und problemlos in bestehende Fine-Tuning-Verfahren für Bild-Text-Abfrage integriert werden kann. Gleichzeitig präsentieren wir zur weiteren Diagnose der Äquivarianz von VLMs einen neuen, anspruchsvollen Benchmark namens EqBen. Im Gegensatz zu bestehenden Evaluierungssätzen ist EqBen der erste, der sich explizit auf „visuell minimale Veränderungen“ konzentriert. Ausführliche Experimente zeigen die mangelnde Äquivarianz in aktuellen VLMs und bestätigen die Wirksamkeit von EqSim. Der Quellcode ist unter https://github.com/Wangt-CN/EqBen verfügbar.