vor 2 Monaten

Neuronale Motive: Szenengraph-Parsing mit globalen Kontextinformationen

Rowan Zellers; Mark Yatskar; Sam Thomson; Yejin Choi

Abstract

Wir untersuchen das Problem der Erstellung strukturierter Graphendarstellungen von visuellen Szenen. Unsere Arbeit analysiert die Rolle von Motiven: regelmäßig auftretenden Unterstrukturen in Szengraphen. Wir präsentieren neue quantitative Erkenntnisse zu solchen wiederkehrenden Strukturen im Visual Genome-Datensatz. Unsere Analyse zeigt, dass Objektetiketten die Beziehungsetiketten stark vorhersagen, aber nicht umgekehrt. Wir stellen auch fest, dass es selbst in größeren Untergraphen wiederkehrende Muster gibt: mehr als 50 % der Graphen enthalten Motive, die mindestens zwei Beziehungen betreffen. Unsere Analyse motiviert eine neue Baseline: gegeben seien Objekterkennungen, dann sollen die häufigsten Beziehungen zwischen Objektpaaren mit den gegebenen Etiketten vorhergesagt werden, wie sie im Trainingsdatensatz zu sehen sind. Diese Baseline verbessert den bisherigen Stand der Technik durchschnittlich um 3,6 % relativ über alle Evaluierungsszenarien hinweg. Anschließend führen wir Stacked Motif Networks (stapelnetzwerkartige Motivnetze) ein, eine neue Architektur, die darauf ausgelegt ist, höhere Ordnungsmotive in Szengraphen zu erfassen und die Leistung unserer starken Baseline durchschnittlich um 7,1 % relativ weiter zu verbessern. Unser Code ist unter github.com/rowanz/neural-motifs verfügbar.