HyperAIHyperAI

Command Palette

Search for a command to run...

ERNIE-ViL: Wissensverstärkte Vision-Sprache-Repräsentationen durch Szenengraphen

Fei Yu Jiji Tang Weichong Yin Yu Sun Hao Tian Hua Wu Haifeng Wang

Zusammenfassung

Wir stellen einen wissensbasierten Ansatz namens ERNIE-ViL vor, der strukturiertes Wissen aus Szenengraphen nutzt, um gemeinsame Darstellungen für visuelle und sprachliche Informationen zu lernen. ERNIE-ViL zielt darauf ab, detaillierte semantische Verbindungen (Objekte, Attribute von Objekten sowie Beziehungen zwischen Objekten) zwischen Vision und Sprache herzustellen, die für Aufgaben im Bereich der multimodalen Bild-Sprache-Verarbeitung von entscheidender Bedeutung sind. Durch die Nutzung von Szenengraphen visueller Szenen konstruiert ERNIE-ViL während des Vortrainings Aufgaben zur Szenengraphenvorhersage, nämlich Aufgaben zur Objektprediktion, Attributvorhersage und Beziehungsvorhersage. Insbesondere werden diese Vorhersageaufgaben durch die Vorhersage von Knoten unterschiedlicher Typen im aus dem Satz extrahierten Szenengraphen realisiert. Dadurch kann ERNIE-ViL gemeinsame Darstellungen erlernen, die die Ausrichtung detaillierter Semantik zwischen Vision und Sprache charakterisieren. Nach dem Vortraining auf großen, bild-sprache-gepaarten Datensätzen validieren wir die Wirksamkeit von ERNIE-ViL an fünf multimodalen Nachfolgeaufgaben. ERNIE-ViL erreicht dabei Spitzenleistungen auf allen diesen Aufgaben und belegt mit einer absoluten Verbesserung von 3,7 % den ersten Platz in der VCR-Rangliste.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp