HyperAIHyperAI
vor 18 Tagen

Fein-zu-Rohes kontrastives Lernen im Bild-Text-Graphen-Raum zur Verbesserung der Vision-Sprache-Kompositionalität

Harman Singh, Pengchuan Zhang, Qifan Wang, Mengjiao Wang, Wenhan Xiong, Jingfei Du, Yu Chen
Fein-zu-Rohes kontrastives Lernen im Bild-Text-Graphen-Raum zur Verbesserung der Vision-Sprache-Kompositionalität
Abstract

Kontrastiv trainierte visuell-sprachliche Modelle haben erhebliche Fortschritte bei der Lernung von Darstellungen in der Bild- und Sprachverarbeitung erzielt und führen derzeit zu state-of-the-art-Modellen für zahlreiche aufwändige multimodale Aufgaben. Dennoch hat jüngste Forschung gravierende Einschränkungen dieser Modelle bei der Durchführung kompositioneller Schlussfolgerungen über Objekte, Attribute und Relationen aufgedeckt. Szenengraphen sind als effektive Methode zur kompositionellen Bildinterpretation entstanden. Es handelt sich hierbei um graphenbasierte semantische Darstellungen von Bildern, die Objekte, deren Attribute sowie deren Beziehungen zu anderen Objekten in einer Szene enthalten. In dieser Arbeit betrachten wir den aus Text extrahierten Szenengraphen als Proxy für den tatsächlichen Szenengraphen eines Bildes und stellen einen Rahmenwerk für Graphenzerlegung und -erweiterung sowie ein fein-zu-grob ausgerichtetes kontrastives Lernziel zwischen Bildern und Text vor, das Sätze unterschiedlicher Komplexität auf dasselbe Bild ausrichtet. Zusätzlich entwickeln wir neuartige Techniken zur Negativminierung im Szenengraphenraum, um die Bindung von Attributen und das Verständnis von Relationen zu verbessern. In umfangreichen Experimenten zeigen wir die Wirksamkeit unseres Ansatzes, der die Bindung von Attributen, das Verständnis von Relationen, die systematische Generalisierung und die Produktivität erheblich verbessert (beispielsweise Verbesserungen um bis zu 18 % bei der systematischen Generalisierung und 16,5 % bei der Relationserfassung gegenüber einem starken Baseline), während gleichzeitig eine vergleichbare oder bessere Leistung als CLIP bei verschiedenen allgemeinen multimodalen Aufgaben erreicht wird.