MVT : Transformateur multi-vues pour la reconnaissance d'objets 3D

Inspirationnée par le grand succès remporté par les CNN dans la reconnaissance d'images, les méthodes basées sur des vues ont appliqué les CNN pour modéliser les vues projetées des objets 3D, obtenant ainsi d'excellentes performances. Cependant, les modèles de CNN multi-vues ne peuvent pas modéliser les communications entre les patches provenant de différentes vues, ce qui limite leur efficacité en reconnaissance d'objets 3D. Inspirés par le récent succès obtenu par le Vision Transformer dans la reconnaissance d'images, nous proposons un Multi-view Vision Transformer (MVT) pour la reconnaissance d'objets 3D. Étant donné que chaque caractéristique de patch dans un bloc Transformer dispose d'un champ de réception global, elle communique naturellement entre les patches provenant de différentes vues. Par ailleurs, elle présente beaucoup moins de biais inductif comparativement à ses homologues CNN. En tenant compte à la fois de l'efficacité et de l'efficience, nous avons développé une structure globale-locale pour notre MVT. Nos expériences sur deux benchmarks publics, ModelNet40 et ModelNet10, démontrent les performances compétitives de notre MVT.