HyperAIHyperAI

Command Palette

Search for a command to run...

CLIP2Point: Übertragung von CLIP auf die Klassifizierung von Punktwolken durch Bild-Tiefen-Vortraining

Tianyu Huang Bowen Dong Yunhan Yang Xiaoshui Huang Rynson W.H. Lau Wanli Ouyang Wangmeng Zuo

Zusammenfassung

Das Pre-Training über 3D-Vision und Sprache bleibt aufgrund begrenzter Trainingsdaten in Entwicklung. Kürzliche Arbeiten versuchen, Vision-Sprache Pre-Training-Modelle auf die 3D-Vision zu übertragen. PointCLIP konvertiert Punktwolken-Daten in mehrfach-sichtbare Tiefenkarten und nutzt CLIP für die Formklassifizierung. Allerdings wird seine Leistung durch den Domänenunterschied zwischen gerenderten Tiefenkarten und Bildern sowie durch die Vielfalt der Tiefenverteilungen eingeschränkt. Um dieses Problem zu lösen, schlagen wir CLIP2Point vor, eine Methode des Image-Tiefe Pre-Trainings durch kontrastives Lernen, um CLIP in den 3D-Bereich zu übertragen und sie für die Klassifizierung von Punktwolken anzupassen. Wir führen eine neue Tieferenderungseinstellung ein, die eine bessere visuelle Wirkung erzeugt, und rendern dann 52.460 Paare von Bildern und Tiefenkarten aus ShapeNet für das Pre-Training. Das Pre-Trainings-Schema von CLIP2Point kombiniert multimodales Lernen zur Stärkung der Tiefenmerkmale bei der Erfassung ausdrucksstarker visueller und textbasierter Merkmale sowie intramodales Lernen zur Verbesserung der Invarianz der Tiefenaggregation. Darüber hinaus schlagen wir ein neuartiges Modul namens Dual-Path Adapter (DPA), d.h. eine Struktur mit zwei Pfaden und vereinfachten Adapters für Few-Shot-Lernen vor. Die Struktur mit zwei Pfaden ermöglicht es, CLIP und CLIP2Point gemeinsam zu verwenden, während der vereinfachte Adapter Few-Shot-Aufgaben ohne nachfolgende Suche gut anpasst. Experimentelle Ergebnisse zeigen, dass CLIP2Point effektiv ist bei der Übertragung von CLIP-Wissen auf die 3D-Vision. Unser CLIP2Point übertreffen sowohl PointCLIP als auch andere selbstüberwachte 3D-Netze und erzielen Stand-of-the-Art-Ergebnisse bei Zero-Shot- und Few-Shot-Klassifizierung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp