HyperAIHyperAI
vor 2 Monaten

PCP-MAE: Lernen, Zentren für Punktmaskierungs-Autoencoder vorherzusagen

Zhang, Xiangdong ; Zhang, Shaofeng ; Yan, Junchi
PCP-MAE: Lernen, Zentren für Punktmaskierungs-Autoencoder vorherzusagen
Abstract

Maskierte Autoencoder wurden in der punktwolkenbasierten selbstüberwachten Lernmethode weitgehend erforscht, wobei die Punktwolke in sichtbare und maskierte Teile unterteilt wird. Diese Methoden umfassen in der Regel einen Encoder, der sichtbare Patchs (normalisiert) und deren zugehörige Patchzentren (Position) als Eingabe akzeptiert. Der Decoder erhält das Ausgabeergebnis des Encoders sowie die Zentren (Position) der maskierten Teile, um jeden Punkt in den maskierten Patchs zu rekonstruieren. Anschließend werden die vortrainierten Encoders für nachgelagerte Aufgaben verwendet.In dieser Arbeit zeigen wir ein motivierendes empirisches Ergebnis: Wenn die Zentren der maskierten Patchs direkt dem Decoder ohne Informationen vom Encoder übermittelt werden, rekonstruiert er diese dennoch gut. Mit anderen Worten: Die Zentren der Patchs sind von Bedeutung, und das Rekonstruktionsziel hängt nicht unbedingt von den Darstellungen des Encoders ab. Dies verhindert, dass der Encoder semantische Darstellungen lernt. Basierend auf dieser wichtigen Beobachtung schlagen wir eine einfache, aber effektive Methode vor: das Lernen, Zentren für Punktmaskierte Autoencoder (PCP-MAE) vorherzusagen. Diese Methode führt das Modell an, signifikante Zentren vorherzusagen und diese vorausgesagten Zentren als Ersatz für die direkt bereitgestellten Zentren zu verwenden.Speziell schlagen wir ein Vorhersagemodul für Zentren (Predicting Center Module, PCM) vor, das Parameter mit dem ursprünglichen Encoder teilt und zusätzliche Kreuzaufmerksamkeit (cross-attention) zur Vorhersage von Zentren nutzt. Unser Ansatz zeichnet sich durch eine hohe Effizienz im Vortraining aus und erreicht gegenüber Point-MAE erhebliche Verbesserungen, insbesondere übertreffen wir es um 5,50 % bei OBJ-BG, 6,03 % bei OBJ-ONLY und 5,17 % bei PB-T50-RS für die Klassifizierung von 3D-Objekten im ScanObjectNN-Datensatz. Der Code ist unter https://github.com/aHapBean/PCP-MAE verfügbar.

PCP-MAE: Lernen, Zentren für Punktmaskierungs-Autoencoder vorherzusagen | Neueste Forschungsarbeiten | HyperAI