Visuelles Translations-Embedding-Netzwerk für die Erkennung visueller Beziehungen

Visuelle Relationen wie "Person fährt Fahrrad" und "Fahrrad neben Auto" bieten eine umfassende Szenerkenntnis eines Bildes und haben bereits ihre große Nützlichkeit bei der Verbindung von Computer Vision und natürlicher Sprache gezeigt. Aufgrund der herausfordernden kombinatorischen Komplexität des Modellierens von Subjekt-Praedikat-Objekt-Relationstripeln wurde bisher sehr wenig Arbeit geleistet, um visuelle Relationen zu lokalisieren und vorherzusagen. Inspiriert durch die jüngsten Fortschritte im Lernen relationaler Repräsentationen von Wissensbasen und in konvolutionellen Objekterkennungsnetzen schlagen wir ein Visuelles Translations-Embedding-Netzwerk (VTransE) für die Erkennung visueller Relationen vor. VTransE platziert Objekte in einem niedrigdimensionalen Relationsraum, in dem eine Relation als einfache Vektortranslation modelliert werden kann, d.h., Subjekt + Praedikat $\approx$ Objekt. Wir schlagen eine neuartige Feature-Extraktionsschicht vor, die es ermöglicht, das Wissen über Objekte und Relationen in einer vollständig konvolutionären Weise zu transferieren, wodurch Training und Inferenz in einer einzigen Vorwärts-/Rückwärtsdurchlauf unterstützt werden. Nach bestem Wissen ist VTransE das erste end-to-end Relationsdetektionsnetzwerk. Wir zeigen die Effektivität von VTransE im Vergleich zu anderen Stand-of-the-Art-Methoden anhand zweier groß angelegter Datensätze: Visual Relationship und Visual Genome. Es sei hervorgehoben, dass VTransE trotz seiner rein visuellen Modellierung immer noch wettbewerbsfähig ist gegenüber dem multimodalen Modell von Lu mit sprachlichen A-priori-Wissen.