Maskierte Diskriminierung für selbsterweitertes Lernen auf Punktwolken

Maskierte Autoencoding hat bei der selbstüberwachten Lernmethode in den Bereichen Bild und Sprache große Erfolge erzielt. Allerdings konnte die maskenbasierte Vortrainung bisher keine Vorteile für das Verständnis von Punktwolken zeigen, wahrscheinlich aufgrund der Unfähigkeit gängiger Backbones wie PointNet, die durch Maskierung während des Trainings eingeführte Verteilungsunterschiede zwischen Training und Test korrekt zu behandeln. In dieser Arbeit schließen wir diese Lücke, indem wir einen diskriminativen maskierten Vortrainierungs-Transformer-Framework, MaskPoint, für Punktwolken vorschlagen. Unser Kerngedanke besteht darin, die Punktwolke als diskrete Besetztheitswerte (1, wenn Teil der Punktwolke; 0, wenn nicht) darzustellen und eine einfache binäre Klassifizierung zwischen maskierten Objektpunkten und abgetasteten Rauschpunkten als Proxy-Aufgabe durchzuführen. Auf diese Weise ist unser Ansatz gegenüber der Abtastvarianz in Punktwolken robust und fördert das Erlernen reicher Darstellungen. Wir evaluieren unsere vortrainierten Modelle an mehreren Downstream-Aufgaben, einschließlich der Klassifikation von 3D-Formen, Segmentierung und Real-World-Objekterkennung, und zeigen dabei Stand-of-the-Art-Ergebnisse sowie eine erhebliche Beschleunigung der Vortrainierung (z.B. 4,1-fach auf ScanNet) im Vergleich zur bisherigen Stand-of-the-Art-Transformer-Baseline. Der Quellcode ist unter https://github.com/haotian-liu/MaskPoint verfügbar.