Ganzheitliche 3D-Szenenverstehens aus einem einzigen Bild mit impliziter Darstellung

Wir präsentieren einen neuen Pipeline-Ansatz für die umfassende 3D-Szenenverstehung aus einer einzigen Bildaufnahme, der die Vorhersage von Objektformen, Objektposen und Szenenlayout ermöglicht. Da es sich um ein hochgradig schlecht gestelltes Problem handelt, leiden bestehende Methoden insbesondere in stark belegten Szenen aufgrund starker Objektüberlagerungen häufig an ungenauen Schätzungen sowohl der Formen als auch des Layouts. Wir schlagen vor, die neuesten tiefen impliziten Darstellungen zur Lösung dieser Herausforderung einzusetzen. Wir stellen nicht nur ein bildbasiertes, lokal strukturiertes implizites Netzwerk zur Verbesserung der Objektformschätzung vor, sondern verfeinern zudem die 3D-Objektposen und das Szenenlayout mittels eines neuartigen impliziten Szenengraph-Neural Networks, das implizite lokale Objektmerkmale nutzt. Außerdem wird eine neue Verletzungsstrafe basierend auf physikalischen Konsistenzbedingungen vorgeschlagen, um inkonsistente Objektbeziehungen zu vermeiden. Umfangreiche Experimente zeigen, dass unsere Methode die aktuell besten Ansätze hinsichtlich der Objektform-, Szenenlayout-Schätzung und 3D-Objektdetektion übertrifft.