VLT: Vision-Language Transformer und Abfragegenerierung für die Bezugssegmentierung

Wir schlagen einen Vision-Language-Transformer (VLT)-Rahmen für die Bezugssegmentierung vor, um tiefe Wechselwirkungen zwischen multimodalen Informationen zu fördern und das integrierte Verständnis von visuellen und sprachlichen Merkmalen zu verbessern. Es gibt verschiedene Möglichkeiten, die dynamische Betonung einer sprachlichen Ausdrucksweise zu verstehen, insbesondere im Kontext der Interaktion mit einem Bild. Allerdings sind die gelernten Abfragen in bestehenden Transformer-Modellen nach der Trainingsphase festgelegt und können daher nicht angemessen auf die Zufälligkeit und die enorme Vielfalt sprachlicher Ausdrücke reagieren. Um dieses Problem zu lösen, schlagen wir ein Query-Generation-Modul vor, das dynamisch mehrere Sätze von eingabespezifischen Abfragen erzeugt, um die unterschiedlichen Interpretationen einer sprachlichen Ausdrucksweise darzustellen. Um die beste unter diesen vielfältigen Interpretationen zu identifizieren und somit eine präzisere Maske zu generieren, führen wir ein Query-Balance-Modul ein, das selektiv die entsprechenden Antworten der Abfragesätze fusioniert. Darüber hinaus stärken wir die Fähigkeit des Modells, mit diversen sprachlichen Ausdrücken umzugehen, indem wir inter-sample-Lernen einführen, um dem Modell explizit Wissen über die Interpretation verschiedener sprachlicher Ausdrücke für dasselbe Objekt zu vermitteln. Hierzu verwenden wir maskiertes kontrastives Lernen, um die Merkmale verschiedener Ausdrücke für dasselbe Zielobjekt zu verengen, während gleichzeitig die Merkmale unterschiedlicher Objekte voneinander abgegrenzt werden. Der vorgeschlagene Ansatz ist leichtgewichtig und erzielt konsistent neue SOTA-Ergebnisse in der Bezugssegmentierung auf fünf Datensätzen.