HyperAIHyperAI

Command Palette

Search for a command to run...

Point-LGMask: Lokale und globale Kontexte zur Einbettung für die Vortrainierung von Punktwolken mit Multi-Ratio-Masking

Min Chen Yixue Hao Long Hu Qiao Yu Jinfeng Xu Xianzhi Li Yuan Tang

Zusammenfassung

Selbstüberwachtes Lernen hat in der Verarbeitung natürlicher Sprache sowie in der 2D-Vision große Erfolge erzielt, wobei das Maskieren von Teilen (Masked Modeling) eine weit verbreitete Vortrainierungsstrategie darstellt. Die Erweiterung dieses Ansatzes auf die 3D-Punktwolkenverarbeitung, die sowohl lokale als auch globale Merkmale integriert, stellt jedoch eine neue Herausforderung dar. In unserer Arbeit präsentieren wir Point-LGMask, eine neuartige Methode, die sowohl lokale als auch globale Kontextinformationen mittels Multi-Ratio-Masking einbettet. Dieser Ansatz erweist sich als äußerst effektiv für das selbstüberwachte Merkmalslernen von Punktwolken – wird jedoch von bestehenden Vortrainierungsarbeiten leider weitgehend übersehen. Konkret schlagen wir zunächst Multi-Ratio-Masking vor, um zu verhindern, dass der Encoder sich an eine feste Maskierungsrate anpasst. Dadurch wird der Encoder durch Aufgaben unterschiedlicher Schwierigkeitsgrade motiviert, repräsentative Merkmale umfassend zu erkunden. Um die Einbettung sowohl lokaler als auch globaler Merkmale zu fördern, formulieren wir eine zusammengesetzte Verlustfunktion, die aus zwei Komponenten besteht: (i) einem globalen Repräsentations-Kontrastverlust, der die Clusterzuweisungen der maskierten Punktwolken mit denen der vollständigen Eingabe konsistent macht, und (ii) einem lokalen Punktwolken-Vorhersageverlust, der eine präzise Vorhersage der maskierten Punkte fördert. Mit unserer Point-LGMask zeigen wir, dass die gelernten Repräsentationen hervorragend auf verschiedene Nachfolgeaufgaben übertragbar sind, darunter Few-Shot-Klassifikation, Formklassifikation, Objektteilsegmentierung sowie 3D-Objektdetektion und 3D-Semantiksegmentierung auf realen Szenen. Insbesondere erreicht unser Modell auf dem anspruchsvollen Few-Shot-Klassifikationsaufgabe mit dem real erfassten ScanObjectNN-Datensatz eine deutliche Verbesserung gegenüber bestehenden Vortrainierungsansätzen und übertrifft die zweitbeste Methode um über 4 Prozentpunkte. Zudem erzielt Point-LGMask Verbesserungen von 0,4 Prozentpunkten in AP25 und 0,8 Prozentpunkten in AP50 bei der 3D-Objektdetektion im Vergleich zur zweitbesten Methode, sowie 0,4 Prozentpunkte in mAcc und 0,5 Prozentpunkte in mIoU. Der Quellcode ist unter https://github.com/TangYuan96/Point-LGMask veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp