HyperAIHyperAI
vor 18 Tagen

ViewNet: Ein neuartiger, auf Projektionen basierender Backbone mit View-Pooling für Few-Shot-Punktwolken-Klassifikation

{Senem Velipasalar, Minmin Yang, Jiajing Chen}
ViewNet: Ein neuartiger, auf Projektionen basierender Backbone mit View-Pooling für Few-Shot-Punktwolken-Klassifikation
Abstract

Obwohl verschiedene Ansätze für Aufgaben im Zusammenhang mit 3D-Punktwolken vorgeschlagen wurden, bleibt das Few-Shot-Lernen (FSL) von 3D-Punktwolken nach wie vor wenig erforscht. Im FSL unterscheiden sich die Klassen der Trainings- und Testdaten nicht überlappend, und ein Modell muss unbekannte Klassen anhand nur weniger Beispiele erkennen – im Gegensatz zum traditionellen überwachten Lernen. Bisherige FSL-Methoden für 3D-Punktwolken verwenden punktbasierte Modelle als Grundlage (Backbone). Aufgrund umfangreicher Experimente und Analyse zeigen wir jedoch erstmals, dass ein punktbasiertes Backbone nicht die geeignetste Herangehensweise für FSL ist, da (i) durch die im Backbone verwendete Max-Pooling-Operation eine große Anzahl von Punktmerkmalen verloren geht, was die Fähigkeit zur Repräsentation von Forminformationen verringert; und (ii) punktbasierte Backbones empfindlich gegenüber Verdeckung (Occlusion) sind. Um diese Probleme zu lösen, schlagen wir vor, ein Backbone basierend auf Projektion und 2D-Convolutional Neural Networks (CNN) zu verwenden, das wir ViewNet nennen. Unser Ansatz projiziert zunächst eine 3D-Punktwolke auf sechs verschiedene Ansichten, um das Problem fehlender Punkte zu mildern. Um zudem deskriptivere und unterscheidbarere Merkmale zu generieren, führen wir View Pooling ein, bei dem verschiedene Kombinationen der projizierten Ebenen in fünf Gruppen zusammengefasst und auf jeder Gruppe jeweils eine Max-Pooling-Operation durchgeführt wird. Experimente auf den Datensätzen ModelNet40, ScanObjectNN und ModelNet40-C unter Cross-Validation zeigen, dass unsere Methode konsistent die derzeit besten Baselines übertrifft. Zudem kann ViewNet im Vergleich zu traditionellen Bildklassifizierungs-Backbones wie ResNet aus mehreren Ansichten des Punktwolkenobjekts differenziertere Merkmale extrahieren. Wir zeigen außerdem, dass ViewNet als Backbone mit verschiedenen FSL-Head-Architekturen eingesetzt werden kann und gegenüber herkömmlichen Backbones eine verbesserte Leistung erzielt.