Parameter-effizientes Feinjustieren im Spektralbereich für Point-Cloud-Lernen

Kürzlich ist die Nutzung von Vortrainings-Techniken zur Verbesserung von Punktwolkenmodellen zu einem wichtigen Forschungsthema geworden. Bestehende Ansätze erfordern jedoch in der Regel eine vollständige Feinabstimmung (fine-tuning) vortrainierter Modelle, um zufriedenstellende Leistungen bei nachgelagerten Aufgaben zu erzielen. Dies geht einher mit hohen Speicheranforderungen und rechnerisch anspruchsvollen Prozessen. Um dieses Problem zu lösen, schlagen wir eine neuartige parameter-effiziente Feinabstimmungsmethode für Punktwolken vor, die PointGST (Punktwolken Graphenspektral-Abstimmung) genannt wird. PointGST friert das vortrainierte Modell ein und führt einen leichten, trainierbaren Punktwolken-Spektraladapter (PCSA, Point Cloud Spectral Adapter) ein, um Parameter im Spektralbereich zu feinabstimmen. Die Kernidee basiert auf zwei Beobachtungen: 1) Die internen Token aus eingefrorenen Modellen können im räumlichen Bereich Verwirrungen verursachen; 2) Aufgabenbezogene intrinsische Informationen sind wichtig für den Transfer allgemeiner Kenntnisse auf nachgelagerte Aufgaben. Insbesondere überträgt PointGST die Punkt-Token vom räumlichen in den Spektralbereich, wodurch Verwirrungen zwischen den Token durch die Verwendung orthogonaler Komponenten zur Trennung effektiv reduziert werden. Darüber hinaus enthält die generierte spektrale Basis intrinsische Informationen über die nachgelagerten Punktwolken, was eine gezieltere Abstimmung ermöglicht. Als Ergebnis erleichtert PointGST den effizienten Transfer allgemeiner Kenntnisse auf nachgelagerte Aufgaben und reduziert gleichzeitig erheblich die Trainingskosten. Ausführliche Experimente an herausfordernden Punktwolken-Datensätzen bei verschiedenen Aufgaben zeigen, dass PointGST nicht nur seine vollständig feinabgestimmten Gegenstücke übertrifft, sondern auch erheblich weniger trainierbare Parameter benötigt, was es zu einer vielversprechenden Lösung für effizientes Lernen von Punktwolken macht. Es verbessert einen robusten Baseline um +2,28 %, 1,16 % und 2,78 % und erreicht damit 99,48 %, 97,76 % und 96,18 % auf den Datensätzen ScanObjNN OBJ BG, OBJ OBLY und PB T50 RS jeweils. Diese Fortschritte etablieren einen neuen Stand der Technik (state-of-the-art), indem sie nur 0,67 % der trainierbaren Parameter verwenden.