HyperAIHyperAI
vor 2 Monaten

Regress Before Construct: Regress Autoencoder für Punktwolken-Selbstüberwachungslernen

Liu, Yang ; Chen, Chen ; Wang, Can ; King, Xulin ; Liu, Mengyuan
Regress Before Construct: Regress Autoencoder für Punktwolken-Selbstüberwachungslernen
Abstract

Masked Autoencoders (MAE) haben in der selbstüberwachten Lernmethode sowohl für 2D- als auch für 3D-Bildverarbeitung vielversprechende Leistungen gezeigt. Dennoch weisen bestehende MAE-basierte Methoden noch bestimmte Nachteile auf. Erstens ist die funktionale Trennung zwischen Encoder und Decoder unvollständig, was die Fähigkeit des Encoders zur Darstellungslernen einschränkt. Zweitens nutzen Downstream-Aufgaben ausschließlich den Encoder und können das Wissen, das durch die Encoder-Decoder-Architektur im Pretext-Auftrag erworben wurde, nicht vollständig ausnutzen.In dieser Arbeit schlagen wir Point Regress AutoEncoder (Point-RAE) vor, ein neues Verfahren für regressive Autoencoder im Bereich der selbstüberwachten Lernmethoden für Punktwolken. Das vorgeschlagene Verfahren trennt die Funktionen zwischen Decoder und Encoder durch die Einführung eines Masken-Regressors, der die Darstellung der maskierten Patchs aus der sichtbaren Patch-Darstellung, die vom Encoder kodiert wurde, vorhersagt. Der Decoder rekonstruiert das Ziel aus der vorhergesagten maskierten Patch-Darstellung. Auf diese Weise minimieren wir den Einfluss von Decoder-Updates auf den Darstellungsraum des Encoders.Darüber hinaus führen wir eine Ausrichtungseinschränkung ein, um sicherzustellen, dass die Darstellungen der maskierten Patchs, die aus den kodierten Darstellungen der sichtbaren Patchs vorhergesagt wurden, mit den maskierten Patch-Darstellungen übereinstimmen, die vom Encoder berechnet wurden.Um das während des Vortrainings erlernte Wissen vollständig zu nutzen, entwerfen wir einen neuen Feinjustierungsmodus für den vorgeschlagenen Point-RAE. Umfangreiche Experimente zeigen, dass unser Ansatz während des Vortrainings effizient ist und sich gut auf verschiedene Downstream-Aufgaben überträgt. Insbesondere erreichen unsere vortrainierten Modelle eine hohe Genauigkeit von \textbf{90,28\%} auf dem schwierigsten Split von ScanObjectNN und eine Genauigkeit von \textbf{94,1\%} auf ModelNet40, wodurch sie alle anderen selbstüberwachten Lernmethoden übertrumpfen. Unser Code und unsere vortrainierten Modelle sind öffentlich verfügbar unter: \url{https://github.com/liuyyy111/Point-RAE}.