Entkoppelte motifbewusste Graph-Lernverfahren für die Phrase-Grundlegung

In diesem Paper stellen wir einen neuartigen Graph-Lernrahmen für die Phrasen-Grundierung in Bildern vor. Im Gegensatz zu bestehenden Ansätzen, die von sequenziellen zu dichten Graphmodellen übergehen und lediglich grobkörnige Kontextinformationen erfassen, jedoch die Vielfalt des Kontexts zwischen Phrasen und Bildregionen nicht hinreichend unterscheiden können, legen wir besonderen Fokus auf die unterschiedlichen Motive, die im Kontext des Szenengraphen impliziert sind. Dazu entwickeln wir das entkoppelte Graph-Netzwerk (Disentangled Graph Network, DIGN), um motif-aware kontextuelle Informationen gezielt in die Repräsentationen einzubinden. Zudem setzen wir intervenierende Strategien auf Feature- und Strukturebene ein, um die Repräsentationen zu stärken und zu verallgemeinern. Schließlich wird ein cross-modaler Aufmerksamkeitsnetzwerk eingesetzt, um intra-modale Merkmale zu fusionieren, sodass für jede Phrase die Ähnlichkeit zu den Bildregionen berechnet und die bestmögliche Grundierung ermittelt werden kann. Die Effizienz des entkoppelten und intervenierenden Graph-Netzwerks (DIGN) wird durch eine Reihe von Ablationsstudien validiert, und unser Modell erreicht state-of-the-art Ergebnisse auf den Benchmarks Flickr30K Entities und ReferIt Game.