ExpPoint-MAE: Bessere Interpretierbarkeit und Leistungsfähigkeit für selbstüberwachte Punktwolken-Transformers

In diesem Paper untersuchen wir die Eigenschaften von Transformers, die im Punktwolkenbereich durch Selbstüberwachung erlernt wurden. Insbesondere bewerten wir die Wirksamkeit von Masked Autoencoding als Vortrainingsansatz und erforschen Momentum Contrast als alternatives Verfahren. In unserer Studie analysieren wir den Einfluss der Datenmenge auf die gelernten Merkmale und entdecken Ähnlichkeiten im Verhalten des Transformers über verschiedene Domänen hinweg. Durch umfassende Visualisierungen beobachten wir, dass der Transformer lernt, sich auf semantisch bedeutungsvolle Regionen zu konzentrieren, was darauf hindeutet, dass das Vortrainingsverfahren zu einem tieferen Verständnis der zugrundeliegenden Geometrie führt. Darüber hinaus untersuchen wir den Feintuning-Prozess und dessen Einfluss auf die gelernten Darstellungen. Auf Basis dieser Erkenntnisse entwickeln wir eine Entfrierungsstrategie, die konsistent unsere Baseline übertrifft, ohne zusätzliche Änderungen am Modell oder am Trainingspipeline vorzunehmen, und erreichen somit state-of-the-art Ergebnisse bei der Klassifizierungsaufgabe unter Transformers.