HyperAIHyperAI
vor 2 Monaten

CLIP2Point: Übertragung von CLIP auf die Klassifizierung von Punktwolken durch Bild-Tiefen-Vortraining

Tianyu Huang; Bowen Dong; Yunhan Yang; Xiaoshui Huang; Rynson W.H. Lau; Wanli Ouyang; Wangmeng Zuo
CLIP2Point: Übertragung von CLIP auf die Klassifizierung von Punktwolken durch Bild-Tiefen-Vortraining
Abstract

Das Pre-Training über 3D-Vision und Sprache bleibt aufgrund begrenzter Trainingsdaten in Entwicklung. Kürzliche Arbeiten versuchen, Vision-Sprache Pre-Training-Modelle auf die 3D-Vision zu übertragen. PointCLIP konvertiert Punktwolken-Daten in mehrfach-sichtbare Tiefenkarten und nutzt CLIP für die Formklassifizierung. Allerdings wird seine Leistung durch den Domänenunterschied zwischen gerenderten Tiefenkarten und Bildern sowie durch die Vielfalt der Tiefenverteilungen eingeschränkt. Um dieses Problem zu lösen, schlagen wir CLIP2Point vor, eine Methode des Image-Tiefe Pre-Trainings durch kontrastives Lernen, um CLIP in den 3D-Bereich zu übertragen und sie für die Klassifizierung von Punktwolken anzupassen. Wir führen eine neue Tieferenderungseinstellung ein, die eine bessere visuelle Wirkung erzeugt, und rendern dann 52.460 Paare von Bildern und Tiefenkarten aus ShapeNet für das Pre-Training. Das Pre-Trainings-Schema von CLIP2Point kombiniert multimodales Lernen zur Stärkung der Tiefenmerkmale bei der Erfassung ausdrucksstarker visueller und textbasierter Merkmale sowie intramodales Lernen zur Verbesserung der Invarianz der Tiefenaggregation. Darüber hinaus schlagen wir ein neuartiges Modul namens Dual-Path Adapter (DPA), d.h. eine Struktur mit zwei Pfaden und vereinfachten Adapters für Few-Shot-Lernen vor. Die Struktur mit zwei Pfaden ermöglicht es, CLIP und CLIP2Point gemeinsam zu verwenden, während der vereinfachte Adapter Few-Shot-Aufgaben ohne nachfolgende Suche gut anpasst. Experimentelle Ergebnisse zeigen, dass CLIP2Point effektiv ist bei der Übertragung von CLIP-Wissen auf die 3D-Vision. Unser CLIP2Point übertreffen sowohl PointCLIP als auch andere selbstüberwachte 3D-Netze und erzielen Stand-of-the-Art-Ergebnisse bei Zero-Shot- und Few-Shot-Klassifizierung.

CLIP2Point: Übertragung von CLIP auf die Klassifizierung von Punktwolken durch Bild-Tiefen-Vortraining | Neueste Forschungsarbeiten | HyperAI