Schätzen und Ausnutzen der aleatorischen Unsicherheit bei der Oberflächennormalschätzung

Die Schätzung von Oberflächennormalen aus einem einzelnen Bild ist eine wichtige Aufgabe im Bereich der 3D-Szenenanalyse. In dieser Arbeit adressieren wir zwei Einschränkungen, die den bestehenden Methoden gemeinsam sind: die Unfähigkeit, die aleatorische Unsicherheit zu schätzen, und das Fehlen von Details in der Vorhersage. Das vorgeschlagene Netzwerk schätzt die Wahrscheinlichkeitsverteilung der Oberflächennormalen pro Pixel. Wir führen eine neue Parametrisierung für diese Verteilung ein, sodass ihre negative Log-Likelihood der Winkelverlust mit gelernter Dämpfung entspricht. Der erwartete Wert des Winkelfehlers wird dann als Maß für die aleatorische Unsicherheit verwendet. Zudem präsentieren wir einen neuen Decoder-Framework, bei dem pixelweise mehrschichtige Perzeptrone auf einer Teilmenge von Pixeln trainiert werden, die basierend auf der geschätzten Unsicherheit ausgewählt werden. Die vorgeschlagene unsicherheitsgesteuerte Stichprobenziehung verhindert den Trainingsbias zu großen ebenen Flächen und verbessert die Qualität der Vorhersage, insbesondere in der Nähe von Objektrandlinien und auf kleinen Strukturen. Experimentelle Ergebnisse zeigen, dass die vorgeschlagene Methode den aktuellen Stand der Technik in ScanNet und NYUv2 übertrifft und dass die geschätzte Unsicherheit gut mit dem Vorhersagefehler korreliert. Der Quellcode ist unter https://github.com/baegwangbin/surface_normal_uncertainty verfügbar.