Szene-Graph-Erstellung durch iteratives Messaging

Das Verstehen einer visuellen Szene geht über die Erkennung einzelner Objekte hinaus. Die Beziehungen zwischen den Objekten bilden ebenfalls reichhaltige semantische Informationen über die Szene. In dieser Arbeit modellieren wir die Objekte und ihre Beziehungen explizit mithilfe von Szenengraphen, einer bildbasierten graphischen Struktur eines Bildes. Wir schlagen ein neues End-to-End-Modell vor, das eine solche strukturierte Darstellung der Szene aus einem Eingangsbild generiert. Das Modell löst das Problem der Szenengraph-Inferenz mit Hilfe von Standard-RNNs (Recurrent Neural Networks) und lernt durch Nachrichtenübermittlung seine Vorhersagen iterativ zu verbessern. Unser Modell zur gemeinsamen Inferenz kann Kontexthinweise nutzen, um bessere Vorhersagen über Objekte und ihre Beziehungen zu treffen. Die Experimente zeigen, dass unser Modell bei der Generierung von Szenengraphen unter Verwendung des Visual Genome-Datensatzes und bei der Inferenz von Unterstützungszusammenhängen mit dem NYU Depth v2-Datensatz deutlich besser abschneidet als frühere Methoden.