Point-BERT: Vorkenntnis von 3D-Punktewolken-Transformern durch maschinelles Punktemodelling

Wir stellen Point-BERT vor, ein neues Paradigma für das Lernen von Transformers, um das Konzept von BERT auf 3D-Punktwolken zu verallgemeinern. Inspiriert durch BERT, entwickeln wir eine Maskierte Punktmusterung (Masked Point Modeling, MPM)-Aufgabe zur Vortrainierung von Punktwolken-Transformern. Spezifisch teilen wir zunächst eine Punktwolke in mehrere lokale Punktpatches auf und entwerfen einen Punktwolken-Tokenisierer mit einem diskreten Variational AutoEncoder (dVAE), um diskrete Punkttoken zu generieren, die sinnhafte lokale Informationen enthalten. Anschließend maskieren wir zufällig einige Patches der Eingangs-Punktwolken und geben sie in den Backbone-Transformer ein. Das Ziel der Vortrainierung besteht darin, unter der Aufsicht der durch den Tokenisierer erzeugten Punkttoken die ursprünglichen Punkttoken an den maskierten Positionen wiederherzustellen. Umfangreiche Experimente zeigen, dass die vorgeschlagene BERT-artige Vortrainierungsstrategie die Leistung standardisierter Punktwolken-Transformers erheblich verbessert. Mit unserer Vortrainierungsstrategie zeigen wir, dass eine reine Transformer-Architektur eine Genauigkeit von 93,8 % auf ModelNet40 und 83,1 % auf dem schwierigsten Setting von ScanObjectNN erreicht, wodurch sie sorgfältig konzipierte Punktwolkenmodelle mit deutlich weniger manuell gestalteten Komponenten übertrifft. Wir demonstrieren außerdem, dass die durch Point-BERT gelernten Repräsentationen sich gut auf neue Aufgaben und Domänen übertragen lassen, wobei unsere Modelle den Stand der Technik im Bereich der Few-Shot-Punktwolkenklassifikation stark vorantreiben. Der Code und die vortrainierten Modelle sind unter https://github.com/lulutang0608/Point-BERT verfügbar.