Sonata: Selbstüberwachtes Lernen zu zuverlässigen Punktrepräsentationen

In diesem Paper stellen wir die Frage, ob wir ein zuverlässiges selbstüberwachtes Modell für Punktwolken besitzen, das für vielfältige 3D-Aufgaben durch einfaches lineares Probing eingesetzt werden kann, selbst bei begrenzten Daten und minimaler Rechenleistung. Wir stellen fest, dass bestehende Ansätze des selbstüberwachten Lernens für 3D-Daten bei der Bewertung der Repräsentationsqualität mittels linearem Probing versagen. Wir vermuten, dass dies auf das von uns als „geometrischen Kurzschluss“ bezeichnete Phänomen zurückzuführen ist, das dazu führt, dass die Repräsentationen auf niedrigstufige räumliche Merkmale kollabieren. Dieses Problem ist spezifisch für 3D-Daten und resultiert aus der spärlichen Struktur von Punktwolken. Wir begegnen ihm durch zwei zentrale Strategien: der Verdeckung räumlicher Informationen und der Stärkung der Abhängigkeit von Eingabemerkmals. Auf diese Weise erzeugen wir schließlich ein „Sonata“ aus 140.000 Punktwolken mittels Selbst-Distillation. Sonata ist einfach und intuitiv, doch seine gelernten Repräsentationen sind stark und zuverlässig: Zero-Shot-Visualisierungen zeigen semantische Gruppierung sowie eine ausgeprägte räumliche Schlussfolgerung über Nachbarschaftsbeziehungen. Sonata zeigt herausragende Effizienz in Bezug auf Parameter und Daten – die Genauigkeit beim linearen Probing steigt auf ScanNet von 21,8 % auf 72,5 % (Verdreifachung), und mit nur 1 % der Daten erreicht es fast doppelte Leistung im Vergleich zu früheren Ansätzen. Eine vollständige Feinabstimmung führt zudem zu neuen SOTA-Ergebnissen bei sowohl 3D-Innen- als auch Außenraum-Wahrnehmungsaufgaben.