HyperAIHyperAI

Command Palette

Search for a command to run...

MVT: Multi-View Vision Transformer für die 3D-Objekterkennung

Shuo Chen Tan Yu Ping Li

Zusammenfassung

Angeregt durch den großen Erfolg von CNNs im Bereich der Bilderkennung, wurden bildbasierte Methoden angewendet, um projizierte Ansichten für die 3D-Objekterkennung zu modellieren und dabei ausgezeichnete Ergebnisse erzielt. Dennoch können mehransichtige CNN-Modelle die Kommunikation zwischen Patchs aus verschiedenen Ansichten nicht modellieren, was ihre Effektivität bei der 3D-Objekterkennung einschränkt. Angeregt durch den jüngsten Erfolg von Vision Transformers in der Bilderkennung, schlagen wir einen Multi-View Vision Transformer (MVT) für die 3D-Objekterkennung vor. Da jedes Patch-Feature in einem Transformer-Block ein globales Rezeptionsfeld hat, erreicht es naturgemäß die Kommunikation zwischen Patchs aus verschiedenen Ansichten. Gleichzeitig zeigt es deutlich weniger induktiven Bias als seine CNN-Gegenstücke. Unter Berücksichtigung von Effektivität und Effizienz haben wir eine globale-lokale Struktur für unseren MVT entwickelt. Unsere Experimente an zwei öffentlichen Benchmarks, ModelNet40 und ModelNet10, zeigen die wettbewerbsfähige Leistung unseres MVT.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp