HyperAIHyperAI

Command Palette

Search for a command to run...

Graphbasiertes Netzwerk für die Bild-Text-Übereinstimmung

Chunxiao Liu Zhendong Mao Tianzhu Zhang Hongtao Xie Bin Wang Yongdong Zhang

Zusammenfassung

Die Bild-Text-Zuordnung hat seit ihrer Fähigkeit, Vision und Sprache zu verbinden, zunehmend an Aufmerksamkeit gewonnen. Die zentrale Herausforderung besteht darin, die Korrespondenz zwischen Bild und Text zu lernen. Bisherige Ansätze basieren auf groben Korrespondenzen, die auf Objekt-Koexistenzstatistiken beruhen, und sind daher nicht in der Lage, feinabgestimmte Korrespondenzen von Phrasen zu erlernen. In diesem Artikel stellen wir ein neuartiges Graphenstrukturiertes Übereinstimmungsnetzwerk (Graph Structured Matching Network, GSMN) vor, das feinabgestimmte Korrespondenzen lernt. Das GSMN modelliert Objekt, Relation und Attribut explizit als strukturierte Phrase, wodurch nicht nur die getrennte Lernung der Korrespondenzen von Objekt, Relation und Attribut ermöglicht wird, sondern auch die Lernung feinabgestimmter Korrespondenzen strukturierter Phrasen unterstützt wird. Dies wird durch Knoten- und Strukturlevel-Übereinstimmung erreicht. Die Knotenlevel-Übereinstimmung verknüpft jeden Knoten – unabhängig davon, ob es sich um ein Objekt, eine Relation oder ein Attribut handelt – mit seinen relevanten Knoten aus der anderen Modalität. Diese verknüpften Knoten schließen anschließend gemeinsam feinabgestimmte Korrespondenzen durch Fusion der Nachbarschaftsbeziehungen auf Strukturlevel ab. Umfassende Experimente zeigen, dass das GSMN state-of-the-art-Methoden auf gängigen Benchmarks übertrifft, wobei es eine relative Verbesserung des Recall@1 um fast 7 % auf Flickr30K und um 2 % auf MSCOCO erzielt. Der Quellcode wird unter folgender Adresse veröffentlicht: https://github.com/CrossmodalGroup/GSMN.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp