HyperAIHyperAI

Command Palette

Search for a command to run...

MVT : Transformateur multi-vues pour la reconnaissance d'objets 3D

Shuo Chen Tan Yu Ping Li

Résumé

Inspirationnée par le grand succès remporté par les CNN dans la reconnaissance d'images, les méthodes basées sur des vues ont appliqué les CNN pour modéliser les vues projetées des objets 3D, obtenant ainsi d'excellentes performances. Cependant, les modèles de CNN multi-vues ne peuvent pas modéliser les communications entre les patches provenant de différentes vues, ce qui limite leur efficacité en reconnaissance d'objets 3D. Inspirés par le récent succès obtenu par le Vision Transformer dans la reconnaissance d'images, nous proposons un Multi-view Vision Transformer (MVT) pour la reconnaissance d'objets 3D. Étant donné que chaque caractéristique de patch dans un bloc Transformer dispose d'un champ de réception global, elle communique naturellement entre les patches provenant de différentes vues. Par ailleurs, elle présente beaucoup moins de biais inductif comparativement à ses homologues CNN. En tenant compte à la fois de l'efficacité et de l'efficience, nous avons développé une structure globale-locale pour notre MVT. Nos expériences sur deux benchmarks publics, ModelNet40 et ModelNet10, démontrent les performances compétitives de notre MVT.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp