HyperAIHyperAI
vor 11 Tagen

CrossMoCo: Mehrmodale Momentenkontrastive Lernmethode für Punktwolken

{Nizar Bouguila, Zachary Patterson, Sneha Paul}
Abstract

Die Punktwolke ist eine dreidimensionale geometrische Datenstruktur, die keine spezifische Struktur aufweist und permutationsinvariant ist. In jüngster Zeit hat das Einsatzfeld von Punktwolken in der Visionforschung erhebliche Aufmerksamkeit gefunden. Die meisten bestehenden Ansätze zur Verarbeitung von Punktwolken basieren jedoch auf überwachtem Lernen mit großen, manuell beschrifteten Datensätzen, die aufwendig und kostspielig zu erheben sind. Um diesem Problem entgegenzuwirken, hat das unüberwachte Lernen – insbesondere das selbstüberwachte Lernen – in verschiedenen Aufgaben der 2D-Computer Vision vielversprechende Ergebnisse erzielt und zeigt großes Potenzial für Anwendungen in der 3D-Computer Vision. In dieser Studie stellen wir eine neuartige selbstüberwachte Methode namens CrossMoCo vor, die die Repräsentationen unlabeled Punktwolken in einem multimodalen Setup lernt, wobei zusätzlich die 2D-Renderversionen der Punktwolken genutzt werden. CrossMoCo übertrifft bestehende Methoden im Bereich multimodaler selbstüberwachter Lernverfahren für Punktwolken, indem sie zwei neue Konzepte einführt: Momentum-Contrastive-Lernen mit einer größeren Anzahl an negativen Beispielen sowie mehransichtiges intra-modales Contrastive-Lernen. Der erste Bestandteil nutzt einen Online-Encoder und einen Momentum-Encoder, um mit einer großen Anzahl an negativen Beispielen zu lernen, wodurch konsistente Lernsignale bereitgestellt werden. Der zweite Bestandteil stellt die Konsistenz zwischen verschiedenen Ansichten derselben Modality sicher, was die multimodale Repräsentation verbessert. Wir führen umfangreiche Studien auf zwei etablierten Benchmark-Datensätzen (ModelNet40 und ScanObjectNN) für Aufgaben der linearen Klassifikation und Few-Shot-Lernen durch. Unsere Ergebnisse zeigen, dass CrossMoCo sowohl auf beiden Datensätzen als auch für beide Aufgaben gegenüber bestehenden Methoden überlegen ist, wobei eine Verbesserung von bis zu 4,36 % bei der linearen Klassifikation und bis zu 9,2 % bei Few-Shot-Aufgaben erzielt wird. Der Quellcode ist unter https://github.com/snehaputul/CrossMoCo verfügbar.

CrossMoCo: Mehrmodale Momentenkontrastive Lernmethode für Punktwolken | Neueste Forschungsarbeiten | HyperAI