Schwach überwachtes Lernen von visuellen Beziehungen

Dieses Papier stellt einen neuen Ansatz zur Modellierung visueller Beziehungen zwischen Paaren von Objekten vor. Unter einer Beziehung verstehen wir ein Tripel der Form (Subjekt, Prädikat, Objekt), wobei das Prädikat in der Regel eine Präposition (z.B. "unter", "vor") oder ein Verb ("halten", "reiten") ist, das ein Paar von Objekten (Subjekt, Objekt) verbindet. Das Lernen solcher Beziehungen ist herausfordernd, da die Objekte je nach auftretender Beziehung unterschiedliche räumliche Konfigurationen und Erscheinungsformen haben. Eine weitere große Herausforderung ergibt sich aus der Schwierigkeit, Annotationen, insbesondere auf Boxebene, für alle möglichen Tripel zu erhalten, was sowohl das Lernen als auch die Bewertung erschwert. Die Beiträge dieses Papers sind dreifach. Erstens entwerfen wir starke und dennoch flexible visuelle Merkmale, die das Aussehen und die räumliche Konfiguration von Paaren von Objekten kodieren. Zweitens schlagen wir ein schwach überwachtes diskriminatives Clustermodell vor, um Beziehungen ausschließlich anhand von Bild-Level-Labels zu lernen. Drittens führen wir einen neuen anspruchsvollen Datensatz ungewöhnlicher Beziehungen (UnRel) zusammen mit einer umfassenden Annotation ein, der es ermöglicht, die Genauigkeit des Abrufens visueller Beziehungen zu bewerten. Wir zeigen experimentell, dass unser Modell den Stand der Technik im Visual Relationship Dataset erheblich verbessert und insbesondere die Leistung bei bisher nicht gesehenen Beziehungen (Zero-Shot-Learning) steigert. Diese Beobachtung bestätigen wir anhand unser neu eingeführten UnRel-Datensatzes.