HyperAIHyperAI

Command Palette

Search for a command to run...

Fein-zu-Rohes kontrastives Lernen im Bild-Text-Graphen-Raum zur Verbesserung der Vision-Sprache-Kompositionalität

Harman Singh Pengchuan Zhang Qifan Wang Mengjiao Wang Wenhan Xiong Jingfei Du Yu Chen

Zusammenfassung

Kontrastiv trainierte visuell-sprachliche Modelle haben erhebliche Fortschritte bei der Lernung von Darstellungen in der Bild- und Sprachverarbeitung erzielt und führen derzeit zu state-of-the-art-Modellen für zahlreiche aufwändige multimodale Aufgaben. Dennoch hat jüngste Forschung gravierende Einschränkungen dieser Modelle bei der Durchführung kompositioneller Schlussfolgerungen über Objekte, Attribute und Relationen aufgedeckt. Szenengraphen sind als effektive Methode zur kompositionellen Bildinterpretation entstanden. Es handelt sich hierbei um graphenbasierte semantische Darstellungen von Bildern, die Objekte, deren Attribute sowie deren Beziehungen zu anderen Objekten in einer Szene enthalten. In dieser Arbeit betrachten wir den aus Text extrahierten Szenengraphen als Proxy für den tatsächlichen Szenengraphen eines Bildes und stellen einen Rahmenwerk für Graphenzerlegung und -erweiterung sowie ein fein-zu-grob ausgerichtetes kontrastives Lernziel zwischen Bildern und Text vor, das Sätze unterschiedlicher Komplexität auf dasselbe Bild ausrichtet. Zusätzlich entwickeln wir neuartige Techniken zur Negativminierung im Szenengraphenraum, um die Bindung von Attributen und das Verständnis von Relationen zu verbessern. In umfangreichen Experimenten zeigen wir die Wirksamkeit unseres Ansatzes, der die Bindung von Attributen, das Verständnis von Relationen, die systematische Generalisierung und die Produktivität erheblich verbessert (beispielsweise Verbesserungen um bis zu 18 % bei der systematischen Generalisierung und 16,5 % bei der Relationserfassung gegenüber einem starken Baseline), während gleichzeitig eine vergleichbare oder bessere Leistung als CLIP bei verschiedenen allgemeinen multimodalen Aufgaben erreicht wird.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp