HyperAIHyperAI
vor 18 Tagen

Point-LGMask: Lokale und globale Kontexte zur Einbettung für die Vortrainierung von Punktwolken mit Multi-Ratio-Masking

{Min Chen, Yixue Hao, Long Hu, Qiao Yu, Jinfeng Xu, Xianzhi Li, Yuan Tang}
Abstract

Selbstüberwachtes Lernen hat in der Verarbeitung natürlicher Sprache sowie in der 2D-Vision große Erfolge erzielt, wobei das Maskieren von Teilen (Masked Modeling) eine weit verbreitete Vortrainierungsstrategie darstellt. Die Erweiterung dieses Ansatzes auf die 3D-Punktwolkenverarbeitung, die sowohl lokale als auch globale Merkmale integriert, stellt jedoch eine neue Herausforderung dar. In unserer Arbeit präsentieren wir Point-LGMask, eine neuartige Methode, die sowohl lokale als auch globale Kontextinformationen mittels Multi-Ratio-Masking einbettet. Dieser Ansatz erweist sich als äußerst effektiv für das selbstüberwachte Merkmalslernen von Punktwolken – wird jedoch von bestehenden Vortrainierungsarbeiten leider weitgehend übersehen. Konkret schlagen wir zunächst Multi-Ratio-Masking vor, um zu verhindern, dass der Encoder sich an eine feste Maskierungsrate anpasst. Dadurch wird der Encoder durch Aufgaben unterschiedlicher Schwierigkeitsgrade motiviert, repräsentative Merkmale umfassend zu erkunden. Um die Einbettung sowohl lokaler als auch globaler Merkmale zu fördern, formulieren wir eine zusammengesetzte Verlustfunktion, die aus zwei Komponenten besteht: (i) einem globalen Repräsentations-Kontrastverlust, der die Clusterzuweisungen der maskierten Punktwolken mit denen der vollständigen Eingabe konsistent macht, und (ii) einem lokalen Punktwolken-Vorhersageverlust, der eine präzise Vorhersage der maskierten Punkte fördert. Mit unserer Point-LGMask zeigen wir, dass die gelernten Repräsentationen hervorragend auf verschiedene Nachfolgeaufgaben übertragbar sind, darunter Few-Shot-Klassifikation, Formklassifikation, Objektteilsegmentierung sowie 3D-Objektdetektion und 3D-Semantiksegmentierung auf realen Szenen. Insbesondere erreicht unser Modell auf dem anspruchsvollen Few-Shot-Klassifikationsaufgabe mit dem real erfassten ScanObjectNN-Datensatz eine deutliche Verbesserung gegenüber bestehenden Vortrainierungsansätzen und übertrifft die zweitbeste Methode um über 4 Prozentpunkte. Zudem erzielt Point-LGMask Verbesserungen von 0,4 Prozentpunkten in AP25 und 0,8 Prozentpunkten in AP50 bei der 3D-Objektdetektion im Vergleich zur zweitbesten Methode, sowie 0,4 Prozentpunkte in mAcc und 0,5 Prozentpunkte in mIoU. Der Quellcode ist unter https://github.com/TangYuan96/Point-LGMask veröffentlicht.