3D-JEPA: Eine gemeinsame Einbettungsvorhersagearchitektur für 3D-Selbstüberwachtes Repräsentationslernen

Invariantenbasierte und generative Methoden haben bei der dreidimensionalen selbstüberwachten Repräsentationsschaffung (SSRL) eine bemerkenswerte Leistung gezeigt. Allerdings basieren die ersteren auf manuell gestalteten Datenverstärkungen, die einen Bias einführen, der nicht für alle nachgelagerten Aufgaben universell anwendbar ist, während die letzteren maskierte Bereiche ununterschiedlich rekonstruieren, was zu irrelevanten Details im Repräsentationsraum führt. Um das oben genannte Problem zu lösen, stellen wir 3D-JEPA vor, ein neues nicht-generatives Framework für dreidimensionale selbstüberwachte Repräsentationsschaffung.Speziell schlagen wir eine Multi-Block-Abtaststrategie vor, die einen ausreichend informativen Kontextblock und mehrere repräsentative Zielblöcke erzeugt. Wir präsentieren den kontextbewussten Dekoder, um die Rekonstruktion der Zielblöcke zu verbessern. Konkreter gesagt wird die Kontextinformation kontinuierlich dem Dekoder zugeführt, was es dem Encoder ermöglicht, semantisches Modellieren zu lernen anstatt die Kontextinformationen, die den Zielblöcken zugeordnet sind, zu merken. Insgesamt verwendet 3D-JEPA die Architektur von Encoder und kontextbewusstem Dekoder, um die Repräsentation der Zielblöcke aus einem Kontextblock vorherzusagen.Verschiedene nachgelagerte Aufgaben auf unterschiedlichen Datensätzen zeigen die Effektivität und Effizienz von 3D-JEPA. So erreicht es eine höhere Genauigkeit mit weniger Vortrainings-Epochen, zum Beispiel 88,65 % Genauigkeit auf PB_T50_RS mit 150 Vortrainings-Epochen.