Graphbasiertes Netzwerk für die Bild-Text-Übereinstimmung

Die Bild-Text-Zuordnung hat seit ihrer Fähigkeit, Vision und Sprache zu verbinden, zunehmend an Aufmerksamkeit gewonnen. Die zentrale Herausforderung besteht darin, die Korrespondenz zwischen Bild und Text zu lernen. Bisherige Ansätze basieren auf groben Korrespondenzen, die auf Objekt-Koexistenzstatistiken beruhen, und sind daher nicht in der Lage, feinabgestimmte Korrespondenzen von Phrasen zu erlernen. In diesem Artikel stellen wir ein neuartiges Graphenstrukturiertes Übereinstimmungsnetzwerk (Graph Structured Matching Network, GSMN) vor, das feinabgestimmte Korrespondenzen lernt. Das GSMN modelliert Objekt, Relation und Attribut explizit als strukturierte Phrase, wodurch nicht nur die getrennte Lernung der Korrespondenzen von Objekt, Relation und Attribut ermöglicht wird, sondern auch die Lernung feinabgestimmter Korrespondenzen strukturierter Phrasen unterstützt wird. Dies wird durch Knoten- und Strukturlevel-Übereinstimmung erreicht. Die Knotenlevel-Übereinstimmung verknüpft jeden Knoten – unabhängig davon, ob es sich um ein Objekt, eine Relation oder ein Attribut handelt – mit seinen relevanten Knoten aus der anderen Modalität. Diese verknüpften Knoten schließen anschließend gemeinsam feinabgestimmte Korrespondenzen durch Fusion der Nachbarschaftsbeziehungen auf Strukturlevel ab. Umfassende Experimente zeigen, dass das GSMN state-of-the-art-Methoden auf gängigen Benchmarks übertrifft, wobei es eine relative Verbesserung des Recall@1 um fast 7 % auf Flickr30K und um 2 % auf MSCOCO erzielt. Der Quellcode wird unter folgender Adresse veröffentlicht: https://github.com/CrossmodalGroup/GSMN.