HyperAIHyperAI
vor 11 Tagen

Einbeziehung strukturierter Darstellungen in vortrainierte Vision- und Sprachmodelle mittels Szenengraphen

Roei Herzig, Alon Mendelson, Leonid Karlinsky, Assaf Arbelle, Rogerio Feris, Trevor Darrell, Amir Globerson
Einbeziehung strukturierter Darstellungen in vortrainierte Vision- und Sprachmodelle mittels Szenengraphen
Abstract

Vision- und Sprachmodelle (VLMs) haben bei einer Vielzahl von Aufgaben bemerkenswerte Zero-Shot-(ZS-)Leistungen gezeigt. Allerdings haben jüngere Arbeiten gezeigt, dass selbst die besten VLMs Schwierigkeiten haben, Aspekte der kompositionalen Szenenverstehens zu erfassen, wie beispielsweise Objektmerkmale, Relationen und Aktionszustände. Im Gegensatz dazu sind strukturierte Annotationen, wie beispielsweise Szenengraphen (SGs), die zur Verbesserung dieser Modelle dienen könnten, zeitaufwendig und kostspielig und daher nicht skalierbar. In dieser Arbeit untersuchen wir, ob kleine SG-Datensätze ausreichen, um das strukturierte Verständnis vortrainierter VLMs zu verbessern. Wir zeigen, dass es tatsächlich möglich ist, die Leistung von VLMs zu steigern, wenn man aus SGs lernt, indem man Komponenten integriert, die strukturierte Informationen in sowohl visuelle als auch textuelle Darstellungen einbeziehen. Auf der visuellen Seite integrieren wir eine spezielle „SG-Komponente“ in den Bild-Transformer, die darauf trainiert ist, SG-Informationen vorherzusagen, während wir auf der textuellen Seite SGs nutzen, um feinkörnige Beschreibungen zu generieren, die unterschiedliche kompositionelle Aspekte der Szene hervorheben. Unser Ansatz verbessert die Leistung mehrerer gängiger VLMs auf mehreren VL-Datensätzen, wobei lediglich eine geringfügige Verschlechterung der ZS-Fähigkeiten auftritt.

Einbeziehung strukturierter Darstellungen in vortrainierte Vision- und Sprachmodelle mittels Szenengraphen | Neueste Forschungsarbeiten | HyperAI