EdgeNet: Semantische Szenerienvervollständigung aus einem einzelnen RGB-D-Bild

Die semantische Szenevervollständigung ist die Aufgabe, eine vollständige 3D-Darstellung der volumnetrischen Besetztheit mit entsprechenden semantischen Labels für eine Szene aus einer einzelnen Perspektive vorherzusagen. Frühere Arbeiten zur semantischen Szenevervollständigung auf Basis von RGB-D-Daten nutzten entweder nur Tiefeninformationen oder Tiefeninformationen in Kombination mit Farbinformationen, indem das 2D-Bild in den 3D-Volumen projiziert wurde, was zu einer dünn besetzten Datenrepräsentation führte. In dieser Arbeit stellen wir eine neue Strategie vor, um Farbinformationen im 3D-Raum durch Kantenerkennung und umgekehrte abgeschnittene signierte Distanz (flipped truncated signed distance) zu kodieren. Zudem präsentieren wir EdgeNet, eine neue neuronale Netzarchitektur, die von Anfang bis Ende (end-to-end) in der Lage ist, Merkmale zu verarbeiten, die aus der Fusion von Tiefen- und Kantendaten generiert werden. Experimentelle Ergebnisse zeigen eine Verbesserung von 6,9 % gegenüber dem aktuellen Stand der Technik bei realen Daten für Ansätze von Anfang bis Ende.