HyperAIHyperAI
vor 17 Tagen

INFERNO: Objektorientierte Schätzung von 3D-Szenendarstellungen ohne Überwachung

{Aaron Courville, Nicolas Ballas, Lluis Castrejon}
INFERNO: Objektorientierte Schätzung von 3D-Szenendarstellungen ohne Überwachung
Abstract

Wir stellen INFERNO vor, eine Methode zur Ableitung objektzentrierter Darstellungen visueller Szenen, die auf keine Annotationen angewiesen ist. Unser Ansatz lernt, eine Szene in mehrere Objekte zu zerlegen, wobei jedes Objekt über eine strukturierte Darstellung verfügt, die dessen Form, Erscheinungsbild und 3D-Pose voneinander entkoppelt. Um diese Struktur zu gewährleisten, stützen wir uns auf jüngste Fortschritte im Bereich der neuronalen 3D-Rendering-Techniken. Jede Objektdarstellung definiert ein lokalisiertes neuronales Strahlungsfeld, das zur Generierung von 2D-Ansichten der Szene mittels eines differenzierbaren Rendering-Prozesses verwendet wird. Unser Modell wird anschließend durch Minimierung eines Rekonstruktionsfehlers zwischen Eingabedaten und den entsprechenden gerenderten Szenen trainiert. Wir zeigen empirisch, dass INFERNO Objekte in einer Szene ohne überwachtes Lernen erkennt. Zudem bestätigen wir die Interpretierbarkeit der gelernten Darstellungen durch Manipulationen der abgeleiteten Szenen und die Beobachtung der entsprechenden Auswirkungen im gerenderten Ausgabebild. Schließlich demonstrieren wir die Nützlichkeit unserer 3D-Objektdarstellungen in einer visuellen Schlussfolgerungsaufgabe anhand des CATER-Datensatzes.