HyperAIHyperAI

Command Palette

Search for a command to run...

Swin3D: Ein vortrainierter Transformer-Backbone für die 3D-Innenraum-Szenerenverarbeitung

Yu-Qi Yang Yu-Xiao Guo Jian-Yu Xiong Yang Liu Hao Pan Peng-Shuai Wang Xin Tong Baining Guo

Zusammenfassung

Die Verwendung vortrainierter Backbone-Netzwerke mit Fine-Tuning hat sich bei 2D-Vision- und Sprachverarbeitungsaufgaben als erfolgreich erwiesen und zeigt Vorteile gegenüber auf spezifische Aufgaben zugeschnittenen Netzwerken. In dieser Arbeit stellen wir einen vortrainierten 3D-Backbone namens {\SST} für die 3D-Verständnis von Innenräumen vor. Wir entwerfen einen 3D-Swin-Transformer als unseren Backbone-Netzwerk, der eine effiziente Selbst-Attention auf spärlichen Voxel-Daten mit linearer Speicherkomplexität ermöglicht und somit skalierbar für große Modelle und Datensätze ist. Außerdem führen wir ein verallgemeinertes kontextuelles relatives Positionseingabe-Schema ein, um verschiedene Irregularitäten von Punkt-Signalen zu erfassen und die Leistung des Netzwerks zu verbessern. Wir haben ein großes {\SST}-Modell auf einem synthetischen Structured3D-Datensatz vortrainiert, der um eine Größenordnung größer ist als der ScanNet-Datensatz. Unser auf einem synthetischen Datensatz vortrainiertes Modell generalisiert nicht nur gut auf nachgeschaltete Aufgaben wie Segmentierung und Detektion auf realen 3D-Punktdatensätzen, sondern erreicht zudem Spitzenleistungen gegenüber aktuellen State-of-the-Art-Methoden: +2,3 mIoU und +2,2 mIoU bei der 6-fachen semantischen Segmentierung auf S3DIS Area5, +1,8 mIoU bei der ScanNet-Segmentierung (val), +1,9 mAP@0,5 bei der ScanNet-Detektion sowie +8,1 mAP@0,5 bei der S3DIS-Detektion. Eine Reihe umfassender Ablationsstudien bestätigt zudem die Skalierbarkeit, Allgemeingültigkeit und überlegene Leistungsfähigkeit unseres Ansatzes. Der Quellcode und die Modelle sind unter https://github.com/microsoft/Swin3D verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp