Lernen eines multimodalen Kontextgraphen für die visuelle Grundlegung

Visual Grounding ist ein allgegenwärtiger Baustein vieler Vision-Language-Aufgaben und bleibt dennoch herausfordernd, da große Variationen in den visuellen und sprachlichen Merkmalen der Grundierungsentitäten, starke Kontextabhängigkeit sowie die daraus resultierenden semantischen Mehrdeutigkeiten bestehen. Vorangegangene Arbeiten konzentrieren sich typischerweise auf die Lernung von Repräsentationen einzelner Phrasen unter Nutzung begrenzter Kontextinformation. Um diese Einschränkungen zu überwinden, schlägt dieser Artikel eine sprachgesteuerte Graphrepräsentation vor, um den globalen Kontext der Grundierungsentitäten und deren Beziehungen zu erfassen, sowie eine cross-modale Graph-Übereinstimmungsstrategie für die mehrfach-phrasenbasierte visuelle Grundierung. Insbesondere führen wir ein modulares Graph-Neuronales Netzwerk ein, das kontextbewusste Repräsentationen von Phrasen und Objektpropositionen jeweils über Nachrichtenweiterleitung berechnet, gefolgt von einem graphbasierten Übereinstimmungsmodul zur Generierung global konsistenter Lokalisierungen der Grundierungsphrasen. Das gesamte Graph-Neuronale Netzwerk trainieren wir in einer zweistufigen Strategie gemeinsam und evaluieren es auf der Flickr30K Entities-Benchmark. Umfangreiche Experimente zeigen, dass unsere Methode die vorherigen State-of-the-Art-Verfahren deutlich übertrifft, was die Wirksamkeit unseres Grundierungsframeworks belegt. Der Quellcode ist unter https://github.com/youngfly11/LCMCG-PyTorch verfügbar.