HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateurs multi-vues pour la segmentation sémantique en temps réel de la vue cartographique

Brady Zhou Philipp Krähenbühl

Résumé

Nous présentons les transformateurs multi-vues, un modèle efficace basé sur l'attention pour la segmentation sémantique en vue de plan à partir de plusieurs caméras. Notre architecture apprend implicitement une correspondance des vues individuelles des caméras vers une représentation canonique en vue de plan grâce à un mécanisme d'attention multi-vues prenant en compte les caméras. Chaque caméra utilise des plongements positionnels qui dépendent de sa calibration intrinsèque et extrinsèque. Ces plongements permettent à un transformateur d'apprendre la correspondance entre différentes vues sans jamais modéliser explicitement cette correspondance géométriquement. L'architecture comprend un encodeur d'image convolutif pour chaque vue et des couches de transformateurs multi-vues pour inférer une segmentation sémantique en vue de plan. Notre modèle est simple, facilement parallélisable et fonctionne en temps réel. L'architecture présentée atteint le niveau de l'état de l'art sur le jeu de données nuScenes, avec des vitesses d'inférence 4 fois plus rapides. Le code est disponible à l'adresse suivante : https://github.com/bradyz/cross_view_transformers.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp