HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Lernen eines multimodalen Kontextgraphen für die visuelle Grundlegung

{Yongfei Liu; Bo Wan; Xiaodan Zhu; Xuming He}

Lernen eines multimodalen Kontextgraphen für die visuelle Grundlegung

Abstract

Visual Grounding ist ein allgegenwärtiger Baustein vieler Vision-Language-Aufgaben und bleibt dennoch herausfordernd, da große Variationen in den visuellen und sprachlichen Merkmalen der Grundierungsentitäten, starke Kontextabhängigkeit sowie die daraus resultierenden semantischen Mehrdeutigkeiten bestehen. Vorangegangene Arbeiten konzentrieren sich typischerweise auf die Lernung von Repräsentationen einzelner Phrasen unter Nutzung begrenzter Kontextinformation. Um diese Einschränkungen zu überwinden, schlägt dieser Artikel eine sprachgesteuerte Graphrepräsentation vor, um den globalen Kontext der Grundierungsentitäten und deren Beziehungen zu erfassen, sowie eine cross-modale Graph-Übereinstimmungsstrategie für die mehrfach-phrasenbasierte visuelle Grundierung. Insbesondere führen wir ein modulares Graph-Neuronales Netzwerk ein, das kontextbewusste Repräsentationen von Phrasen und Objektpropositionen jeweils über Nachrichtenweiterleitung berechnet, gefolgt von einem graphbasierten Übereinstimmungsmodul zur Generierung global konsistenter Lokalisierungen der Grundierungsphrasen. Das gesamte Graph-Neuronale Netzwerk trainieren wir in einer zweistufigen Strategie gemeinsam und evaluieren es auf der Flickr30K Entities-Benchmark. Umfangreiche Experimente zeigen, dass unsere Methode die vorherigen State-of-the-Art-Verfahren deutlich übertrifft, was die Wirksamkeit unseres Grundierungsframeworks belegt. Der Quellcode ist unter https://github.com/youngfly11/LCMCG-PyTorch verfügbar.

Benchmarks

BenchmarkMethodikMetriken
phrase-grounding-on-flickr30k-entities-testLCMCG
R@1: 76.74

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lernen eines multimodalen Kontextgraphen für die visuelle Grundlegung | Forschungsarbeiten | HyperAI