Point2Vec für das selbstüberwachte Repräsentationslernen auf Punktwolken

Kürzlich hat das selbstüberwachte Lernframework data2vec mit einem maskierten Schüler-Lehrer-Ansatz für verschiedene Modalitäten inspirierende Leistungen gezeigt. Es bleibt jedoch offen, ob ein solches Framework die einzigartigen Herausforderungen von 3D-Punktwolken bewältigen kann. Um diese Frage zu beantworten, erweitern wir data2vec auf den Bereich der Punktwolken und berichten über ermutigende Ergebnisse bei mehreren Downstream-Aufgaben. In einer detaillierten Analyse entdecken wir, dass die Verkündung von Positionsinformationen dem Schüler sogar bei starkem Maskieren die allgemeine Objektform enthüllt und somit data2vec daran hindert, starke Repräsentationen für Punktwolken zu lernen. Wir beheben diesen modalspezifischen Nachteil durch den Vorschlag von point2vec, welches das volle Potenzial von data2vec-ähnlicher Vortrainierung auf Punktwolken freisetzt. Unsere Experimente zeigen, dass point2vec andere selbstüberwachte Methoden bei der Formklassifikation und Few-Shot-Learning auf ModelNet40 und ScanObjectNN übertrifft und gleichzeitig wettbewerbsfähige Ergebnisse bei der Segmentierung von Teilen auf ShapeNetParts erzielt. Diese Ergebnisse deuten darauf hin, dass die gelernten Repräsentationen sowohl stark als auch transferierbar sind und point2vec als vielversprechende Richtung für das selbstüberwachte Lernen von Punktwolkenrepräsentationen hervorhebt.