Point-JEPA: Eine gemeinsame Einbettungsvorhersagearchitektur für selbstüberwachtes Lernen auf Punktwolken

Kürzliche Fortschritte im Bereich des selbstüberwachten Lernens für Punktwolken haben ein erhebliches Potenzial gezeigt. Diese Methoden leiden jedoch oft an Nachteilen, wie einer langen Vortrainingszeit, der Notwendigkeit der Rekonstruktion im Eingaberaum oder der Anforderung zusätzlicher Modalitäten. Um diese Probleme zu bewältigen, stellen wir Point-JEPA vor, eine gemeinsame Einbettungsprädiktive Architektur, die speziell für Punktwolken-Daten entwickelt wurde. Dazu führen wir einen Sequenzer ein, der die Einbettungen von Punktwolken-Patches ordnet, um ihre Nähe basierend auf den Indizes während der Auswahl von Ziel und Kontext effizient zu berechnen und zu nutzen. Der Sequenzer ermöglicht zudem geteilte Berechnungen der Nähewerte zwischen den Einbettungen der Patches bei der Auswahl von Kontext und Ziel, was die Effizienz weiter verbessert. In experimentellen Studien erzielt unsere Methode wettbewerbsfähige Ergebnisse im Vergleich zu den besten aktuellen Verfahren, während sie die Rekonstruktion im Eingaberaum oder zusätzliche Modalitäten vermeidet.