Visuelle Beziehungsdetektion mit Sprachpräferenzen

Visuelle Beziehungen erfassen eine Vielzahl von Interaktionen zwischen Paaren von Objekten in Bildern (z.B. "Mann fährt Fahrrad" und "Mann schiebt Fahrrad"). Daher ist die Menge der möglichen Beziehungen extrem groß, und es ist schwierig, für alle möglichen Beziehungen ausreichend Trainingsbeispiele zu erhalten. Aufgrund dieser Einschränkung haben frühere Arbeiten zur Erkennung visueller Beziehungen sich darauf konzentriert, nur eine kleine Anzahl von Beziehungen vorherzusagen. Obwohl die meisten Beziehungen selten sind, treten ihre Objekte (z.B. "Mann" und "Fahrrad") und Prädikate (z.B. "fährt" und "schiebt") unabhängig voneinander häufiger auf. Wir schlagen ein Modell vor, das dieses Wissen nutzt, um visuelle Modelle für Objekte und Prädikate einzeln zu trainieren und sie später zusammenzuführen, um mehrere Beziehungen pro Bild vorherzusagen. Wir verbessern frühere Arbeiten, indem wir semantische Wort-Vektoren nutzen, um die Wahrscheinlichkeit einer vorhergesagten Beziehung zu feinjustieren. Unser Modell kann mit wenigen Beispielen auf die Vorhersage von Tausenden von Beziehungstypen skaliert werden. Darüber hinaus lokalisieren wir die Objekte in den vorhergesagten Beziehungen als Begrenzungsrahmen im Bild. Wir demonstrieren zudem, dass das Verständnis von Beziehungen die inhaltsbasierte Bildsuche verbessern kann.