HyperAIHyperAI
vor 2 Monaten

MVT: Multi-View Vision Transformer für die 3D-Objekterkennung

Chen, Shuo ; Yu, Tan ; Li, Ping
MVT: Multi-View Vision Transformer für die 3D-Objekterkennung
Abstract

Angeregt durch den großen Erfolg von CNNs im Bereich der Bilderkennung, wurden bildbasierte Methoden angewendet, um projizierte Ansichten für die 3D-Objekterkennung zu modellieren und dabei ausgezeichnete Ergebnisse erzielt. Dennoch können mehransichtige CNN-Modelle die Kommunikation zwischen Patchs aus verschiedenen Ansichten nicht modellieren, was ihre Effektivität bei der 3D-Objekterkennung einschränkt. Angeregt durch den jüngsten Erfolg von Vision Transformers in der Bilderkennung, schlagen wir einen Multi-View Vision Transformer (MVT) für die 3D-Objekterkennung vor. Da jedes Patch-Feature in einem Transformer-Block ein globales Rezeptionsfeld hat, erreicht es naturgemäß die Kommunikation zwischen Patchs aus verschiedenen Ansichten. Gleichzeitig zeigt es deutlich weniger induktiven Bias als seine CNN-Gegenstücke. Unter Berücksichtigung von Effektivität und Effizienz haben wir eine globale-lokale Struktur für unseren MVT entwickelt. Unsere Experimente an zwei öffentlichen Benchmarks, ModelNet40 und ModelNet10, zeigen die wettbewerbsfähige Leistung unseres MVT.

MVT: Multi-View Vision Transformer für die 3D-Objekterkennung | Neueste Forschungsarbeiten | HyperAI