ScanNet: Reichen annotierten 3D-Rekonstruktionen von Innenräumen

Eine wesentliche Voraussetzung für die Nutzung überwachter Tiefenlernmethoden ist die Verfügbarkeit großer, annotierter Datensätze. Leider gibt es im Kontext der RGB-D Szenerkennung sehr wenig Daten – aktuelle Datensätze umfassen nur eine geringe Vielfalt von Szeneansichten und haben begrenzte semantische Annotationen. Um dieses Problem zu lösen, stellen wir ScanNet vor, einen RGB-D Videodatensatz, der 2,5 Millionen Ansichten in 1513 Szenen enthält, die mit 3D-Kamerapositionen, Oberflächenrekonstruktionen und semantischen Segmentierungen annotiert sind. Zur Sammlung dieser Daten haben wir ein benutzerfreundliches und skalierbares RGB-D Erfassungssystem entwickelt, das automatisierte Oberflächenrekonstruktion und crowd-basierte semantische Annotation umfasst. Wir zeigen, dass die Verwendung dieser Daten den Stand der Technik bei mehreren 3D-Szenerkennungsaufgaben verbessert, darunter die Klassifizierung von 3D-Objekten, das semantische Voxel-Labeling und die CAD-Modellrecherche. Der Datensatz ist frei verfügbar unter http://www.scan-net.org.