Lernen, dynamische Baumstrukturen für visuelle Kontexte zu komponieren

Wir schlagen vor, dynamische Baumstrukturen zu erstellen, die Objekte in einem Bild in einen visuellen Kontext einordnen, um visuelle Inferenzaufgaben wie die Generierung von Szenengraphen und visuelle Q&A (Fragen und Antworten) zu unterstützen. Unser Modell für den visuellen Kontextbaum, VCTree genannt, hat gegenüber bestehenden strukturierten Objektrepräsentationen wie Ketten und vollständig verbundenen Graphen zwei wesentliche Vorteile: 1) Der effiziente und ausdrucksstarke binäre Baum kodiert die inhärenten parallelen/hierarchischen Beziehungen zwischen Objekten, z.B. "Kleidung" und "Hose" treten normalerweise zusammen auf und gehören zu "Person"; 2) die dynamische Struktur variiert von Bild zu Bild und von Aufgabe zu Aufgabe, was eine inhalts- und aufgabenbezogene Nachrichtenübermittlung zwischen den Objekten ermöglicht. Um einen VCTree zu konstruieren, entwickeln wir eine Bewertungsfunktion, die die task-abhängige Gültigkeit zwischen jedem Paar von Objekten berechnet. Der Baum ist dann die binäre Version des maximalen Spannbaums aus der Bewertungsmatrix. Anschließend werden visuelle Kontexte durch bidirektionale TreeLSTM kodiert und durch aufgaben spezifische Modelle dekodiert. Wir haben ein hybrides Lernverfahren entwickelt, das end-task überwachtes Lernen mit dem Lernen der Baumstruktur durch Reinforcement Learning kombiniert, wobei das Evaluationsergebnis des ersteren als Selbstkritik für die Strukturerforschung des letzteren dient. Experimentelle Ergebnisse anhand zweier Benchmarks, bei denen es um das Schließen über Kontexte geht – Visual Genome für die Generierung von Szenengraphen und VQA2.0 für visuelle Q&A – zeigen, dass VCTree bessere Ergebnisse als der aktuelle Stand der Technik erzielt und zugleich interpretierbare visuelle Kontextstrukturen entdeckt.