vor 11 Tagen

Swin3D: Ein vortrainierter Transformer-Backbone für die 3D-Innenraum-Szenerenverarbeitung

Yu-Qi Yang, Yu-Xiao Guo, Jian-Yu Xiong, Yang Liu, Hao Pan, Peng-Shuai Wang, Xin Tong, Baining Guo

Abstract

Die Verwendung vortrainierter Backbone-Netzwerke mit Fine-Tuning hat sich bei 2D-Vision- und Sprachverarbeitungsaufgaben als erfolgreich erwiesen und zeigt Vorteile gegenüber auf spezifische Aufgaben zugeschnittenen Netzwerken. In dieser Arbeit stellen wir einen vortrainierten 3D-Backbone namens {\SST} für die 3D-Verständnis von Innenräumen vor. Wir entwerfen einen 3D-Swin-Transformer als unseren Backbone-Netzwerk, der eine effiziente Selbst-Attention auf spärlichen Voxel-Daten mit linearer Speicherkomplexität ermöglicht und somit skalierbar für große Modelle und Datensätze ist. Außerdem führen wir ein verallgemeinertes kontextuelles relatives Positionseingabe-Schema ein, um verschiedene Irregularitäten von Punkt-Signalen zu erfassen und die Leistung des Netzwerks zu verbessern. Wir haben ein großes {\SST}-Modell auf einem synthetischen Structured3D-Datensatz vortrainiert, der um eine Größenordnung größer ist als der ScanNet-Datensatz. Unser auf einem synthetischen Datensatz vortrainiertes Modell generalisiert nicht nur gut auf nachgeschaltete Aufgaben wie Segmentierung und Detektion auf realen 3D-Punktdatensätzen, sondern erreicht zudem Spitzenleistungen gegenüber aktuellen State-of-the-Art-Methoden: +2,3 mIoU und +2,2 mIoU bei der 6-fachen semantischen Segmentierung auf S3DIS Area5, +1,8 mIoU bei der ScanNet-Segmentierung (val), +1,9 mAP@0,5 bei der ScanNet-Detektion sowie +8,1 mAP@0,5 bei der S3DIS-Detektion. Eine Reihe umfassender Ablationsstudien bestätigt zudem die Skalierbarkeit, Allgemeingültigkeit und überlegene Leistungsfähigkeit unseres Ansatzes. Der Quellcode und die Modelle sind unter https://github.com/microsoft/Swin3D verfügbar.