vor 17 Tagen

ERNIE-ViL: Wissensverstärkte Vision-Sprache-Repräsentationen durch Szenengraphen

Fei Yu, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang

Abstract

Wir stellen einen wissensbasierten Ansatz namens ERNIE-ViL vor, der strukturiertes Wissen aus Szenengraphen nutzt, um gemeinsame Darstellungen für visuelle und sprachliche Informationen zu lernen. ERNIE-ViL zielt darauf ab, detaillierte semantische Verbindungen (Objekte, Attribute von Objekten sowie Beziehungen zwischen Objekten) zwischen Vision und Sprache herzustellen, die für Aufgaben im Bereich der multimodalen Bild-Sprache-Verarbeitung von entscheidender Bedeutung sind. Durch die Nutzung von Szenengraphen visueller Szenen konstruiert ERNIE-ViL während des Vortrainings Aufgaben zur Szenengraphenvorhersage, nämlich Aufgaben zur Objektprediktion, Attributvorhersage und Beziehungsvorhersage. Insbesondere werden diese Vorhersageaufgaben durch die Vorhersage von Knoten unterschiedlicher Typen im aus dem Satz extrahierten Szenengraphen realisiert. Dadurch kann ERNIE-ViL gemeinsame Darstellungen erlernen, die die Ausrichtung detaillierter Semantik zwischen Vision und Sprache charakterisieren. Nach dem Vortraining auf großen, bild-sprache-gepaarten Datensätzen validieren wir die Wirksamkeit von ERNIE-ViL an fünf multimodalen Nachfolgeaufgaben. ERNIE-ViL erreicht dabei Spitzenleistungen auf allen diesen Aufgaben und belegt mit einer absoluten Verbesserung von 3,7 % den ersten Platz in der VCR-Rangliste.