HyperAIHyperAI

Command Palette

Search for a command to run...

Entkoppelte motifbewusste Graph-Lernverfahren für die Phrase-Grundlegung

Zongshen Mu Siliang Tang Jie Tan Qiang Yu Yueting Zhuang

Zusammenfassung

In diesem Paper stellen wir einen neuartigen Graph-Lernrahmen für die Phrasen-Grundierung in Bildern vor. Im Gegensatz zu bestehenden Ansätzen, die von sequenziellen zu dichten Graphmodellen übergehen und lediglich grobkörnige Kontextinformationen erfassen, jedoch die Vielfalt des Kontexts zwischen Phrasen und Bildregionen nicht hinreichend unterscheiden können, legen wir besonderen Fokus auf die unterschiedlichen Motive, die im Kontext des Szenengraphen impliziert sind. Dazu entwickeln wir das entkoppelte Graph-Netzwerk (Disentangled Graph Network, DIGN), um motif-aware kontextuelle Informationen gezielt in die Repräsentationen einzubinden. Zudem setzen wir intervenierende Strategien auf Feature- und Strukturebene ein, um die Repräsentationen zu stärken und zu verallgemeinern. Schließlich wird ein cross-modaler Aufmerksamkeitsnetzwerk eingesetzt, um intra-modale Merkmale zu fusionieren, sodass für jede Phrase die Ähnlichkeit zu den Bildregionen berechnet und die bestmögliche Grundierung ermittelt werden kann. Die Effizienz des entkoppelten und intervenierenden Graph-Netzwerks (DIGN) wird durch eine Reihe von Ablationsstudien validiert, und unser Modell erreicht state-of-the-art Ergebnisse auf den Benchmarks Flickr30K Entities und ReferIt Game.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Entkoppelte motifbewusste Graph-Lernverfahren für die Phrase-Grundlegung | Paper | HyperAI