vor 8 Monaten

Zusammenfassung

Das Pre-Training über 3D-Vision und Sprache bleibt aufgrund begrenzter Trainingsdaten in Entwicklung. Kürzliche Arbeiten versuchen, Vision-Sprache Pre-Training-Modelle auf die 3D-Vision zu übertragen. PointCLIP konvertiert Punktwolken-Daten in mehrfach-sichtbare Tiefenkarten und nutzt CLIP für die Formklassifizierung. Allerdings wird seine Leistung durch den Domänenunterschied zwischen gerenderten Tiefenkarten und Bildern sowie durch die Vielfalt der Tiefenverteilungen eingeschränkt. Um dieses Problem zu lösen, schlagen wir CLIP2Point vor, eine Methode des Image-Tiefe Pre-Trainings durch kontrastives Lernen, um CLIP in den 3D-Bereich zu übertragen und sie für die Klassifizierung von Punktwolken anzupassen. Wir führen eine neue Tieferenderungseinstellung ein, die eine bessere visuelle Wirkung erzeugt, und rendern dann 52.460 Paare von Bildern und Tiefenkarten aus ShapeNet für das Pre-Training. Das Pre-Trainings-Schema von CLIP2Point kombiniert multimodales Lernen zur Stärkung der Tiefenmerkmale bei der Erfassung ausdrucksstarker visueller und textbasierter Merkmale sowie intramodales Lernen zur Verbesserung der Invarianz der Tiefenaggregation. Darüber hinaus schlagen wir ein neuartiges Modul namens Dual-Path Adapter (DPA), d.h. eine Struktur mit zwei Pfaden und vereinfachten Adapters für Few-Shot-Lernen vor. Die Struktur mit zwei Pfaden ermöglicht es, CLIP und CLIP2Point gemeinsam zu verwenden, während der vereinfachte Adapter Few-Shot-Aufgaben ohne nachfolgende Suche gut anpasst. Experimentelle Ergebnisse zeigen, dass CLIP2Point effektiv ist bei der Übertragung von CLIP-Wissen auf die 3D-Vision. Unser CLIP2Point übertreffen sowohl PointCLIP als auch andere selbstüberwachte 3D-Netze und erzielen Stand-of-the-Art-Ergebnisse bei Zero-Shot- und Few-Shot-Klassifizierung.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Computer Vision

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Tianyu Huang Bowen Dong Yunhan Yang Xiaoshui Huang Rynson W.H. Lau Wanli Ouyang Wangmeng Zuo

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Computer Vision

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Tianyu Huang Bowen Dong Yunhan Yang Xiaoshui Huang Rynson W.H. Lau Wanli Ouyang Wangmeng Zuo

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

CLIP2Point: Übertragung von CLIP auf die Klassifizierung von Punktwolken durch Bild-Tiefen-Vortraining

Tianyu Huang Bowen Dong Yunhan Yang Xiaoshui Huang Rynson W.H. Lau Wanli Ouyang Wangmeng Zuo

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CLIP2Point: Übertragung von CLIP auf die Klassifizierung von Punktwolken durch Bild-Tiefen-Vortraining

Tianyu Huang Bowen Dong Yunhan Yang Xiaoshui Huang Rynson W.H. Lau Wanli Ouyang Wangmeng Zuo

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

CLIP2Point: Übertragung von CLIP auf die Klassifizierung von Punktwolken durch Bild-Tiefen-Vortraining

Tianyu Huang Bowen Dong Yunhan Yang Xiaoshui Huang Rynson W.H. Lau Wanli Ouyang Wangmeng Zuo

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters