HyperAIHyperAI
vor 4 Monaten

Take-A-Photo: 3D-zu-2D Generatives Vortraining von Punktwolkenmodellen

Wang, Ziyi ; Yu, Xumin ; Rao, Yongming ; Zhou, Jie ; Lu, Jiwen
Take-A-Photo: 3D-zu-2D Generatives Vortraining von Punktwolkenmodellen
Abstract

Mit dem überwältigenden Trend der Maskenbildmodellierung durch MAE (Masked Autoencoder) hat sich das generative Vortraining als großes Potenzial erwiesen, die Leistung grundlegender Modelle in der 2D-Bildverarbeitung zu verbessern. Allerdings haben in der 3D-Bildverarbeitung die starke Abhängigkeit von Transformer-basierten Backbones und die unstrukturierte Natur von Punktwolken die weitere Entwicklung des generativen Vortrainings eingeschränkt. In dieser Arbeit schlagen wir eine neuartige 3D-zu-2D-generative Vortrainingmethode vor, die auf beliebige Punktwolkenmodelle anwendbar ist. Wir schlagen vor, Ansichtsbilder aus verschiedenen vorgegebenen Positionen durch den Kreuzaufmerksamkeitsmechanismus (cross-attention mechanism) zu generieren, als Vortrainingsschema. Die Generierung von Ansichtsbildern bietet eine präzisere Überwachung als ihre Punktwolken-Gegenstücke, was dazu beiträgt, dass 3D-Backbones ein feineres Verständnis der geometrischen Struktur und der räumlichen Beziehungen der Punktwolken erlangen. Experimentelle Ergebnisse haben die Überlegenheit unseres vorgeschlagenen 3D-zu-2D-generativen Vortrainings gegenüber früheren Vortrainingsmethoden bewiesen. Unsere Methode ist auch effektiv darin, die Leistung architekturorientierter Ansätze zu steigern und erreicht den aktuellen Stand der Technik bei der Feinabstimmung auf Klassifikationsaufgaben des ScanObjectNN-Datensatzes und Segmentierungsaufgaben des ShapeNetPart-Datensatzes. Der Quellcode ist unter https://github.com/wangzy22/TAP verfügbar.