HyperAIHyperAI

Command Palette

Search for a command to run...

VLT: Vision-Language Transformer und Abfragegenerierung für die Bezugssegmentierung

Henghui Ding Chang Liu Suchen Wang Xudong Jiang

Zusammenfassung

Wir schlagen einen Vision-Language-Transformer (VLT)-Rahmen für die Bezugssegmentierung vor, um tiefe Wechselwirkungen zwischen multimodalen Informationen zu fördern und das integrierte Verständnis von visuellen und sprachlichen Merkmalen zu verbessern. Es gibt verschiedene Möglichkeiten, die dynamische Betonung einer sprachlichen Ausdrucksweise zu verstehen, insbesondere im Kontext der Interaktion mit einem Bild. Allerdings sind die gelernten Abfragen in bestehenden Transformer-Modellen nach der Trainingsphase festgelegt und können daher nicht angemessen auf die Zufälligkeit und die enorme Vielfalt sprachlicher Ausdrücke reagieren. Um dieses Problem zu lösen, schlagen wir ein Query-Generation-Modul vor, das dynamisch mehrere Sätze von eingabespezifischen Abfragen erzeugt, um die unterschiedlichen Interpretationen einer sprachlichen Ausdrucksweise darzustellen. Um die beste unter diesen vielfältigen Interpretationen zu identifizieren und somit eine präzisere Maske zu generieren, führen wir ein Query-Balance-Modul ein, das selektiv die entsprechenden Antworten der Abfragesätze fusioniert. Darüber hinaus stärken wir die Fähigkeit des Modells, mit diversen sprachlichen Ausdrücken umzugehen, indem wir inter-sample-Lernen einführen, um dem Modell explizit Wissen über die Interpretation verschiedener sprachlicher Ausdrücke für dasselbe Objekt zu vermitteln. Hierzu verwenden wir maskiertes kontrastives Lernen, um die Merkmale verschiedener Ausdrücke für dasselbe Zielobjekt zu verengen, während gleichzeitig die Merkmale unterschiedlicher Objekte voneinander abgegrenzt werden. Der vorgeschlagene Ansatz ist leichtgewichtig und erzielt konsistent neue SOTA-Ergebnisse in der Bezugssegmentierung auf fünf Datensätzen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp