Lassen Sie Bilder Ihnen mehr geben: Punktclouddurchkreuzende Modalitäten-Training für die Formanalyse

Obwohl die jüngsten Fortschritte in der Analyse von Punktwolken beeindruckende Ergebnisse erzielt haben, stößt das Paradigma der Repräsentationslernung auf Basis einer einzigen Modality zunehmend an seine Grenzen. In dieser Arbeit gehen wir einen Schritt hin zu diskriminativeren 3D-Punktwolkenrepräsentationen, indem wir die reichhaltigen Erscheinungsinformationen in Bildern voll ausnutzen, die intrinsisch detailliertere visuelle Merkmale wie Textur, Farbe und Schattierung enthalten. Konkret führen wir eine einfache, aber wirksame Strategie für das cross-modale Training von Punktwolken (PointCMT) ein, die sogenannte View-Bilder – also 2D-Bilder, die aus 3D-Objekten gerendert oder projiziert wurden – nutzt, um die Analyse von Punktwolken zu verbessern. Um in der Praxis effektiv ergänzende Kenntnisse aus den View-Bildern zu gewinnen, entwickeln wir einen Lehrer-Schüler-Framework und formulieren das cross-modale Lernen als ein Problem der Wissensvermittlung (Knowledge Distillation). PointCMT beseitigt die Verteilungsdisparität zwischen den verschiedenen Modalitäten durch neuartige Kriterien zur Merkmals- und Klassifikatorverbesserung und vermeidet wirksam potenzielle negative Transfer-Effekte. Es ist bemerkenswert, dass PointCMT die Repräsentation allein aus Punkten signifikant verbessert, ohne dass eine Änderung der Architektur erforderlich ist. Ausführliche Experimente bestätigen erhebliche Leistungssteigerungen auf verschiedenen Datensätzen mit ansprechenden Backbone-Modellen: Mit PointCMT erreichen PointNet++ und PointMLP jeweils Spitzenleistungen auf zwei Benchmarks, mit einer Genauigkeit von 94,4 % auf ModelNet40 und 86,7 % auf ScanObjectNN. Der Quellcode wird unter https://github.com/ZhanHeshen/PointCMT verfügbar gemacht.