HyperAIHyperAI

Command Palette

Search for a command to run...

UniTR : Un Transformer multimodal unifié et efficace pour la représentation vue de dessus

Haiyang Wang Hao Tang Shaoshuai Shi Aoxue Li Zhenguo Li Bernt Schiele Liwei Wang

Résumé

Le traitement conjoint des informations provenant de plusieurs capteurs est essentiel pour obtenir une perception précise et robuste, indispensable aux systèmes d’automatisation fiables. Toutefois, la recherche actuelle en perception 3D suit un paradigme spécifique à chaque modalité, entraînant des surcharges computationnelles supplémentaires et une collaboration inefficace entre les données provenant de capteurs différents. Dans ce travail, nous proposons UniTR, un nouveau modèle fondamental efficace pour la perception 3D en extérieur, capable de traiter diverses modalités grâce à une modélisation unifiée et à des paramètres partagés. Contrairement aux approches antérieures, UniTR introduit un encodeur transformer indépendant de la modalité, permettant de traiter les données provenant de capteurs à perspectives différentes afin d’apprendre en parallèle des représentations propres à chaque modalité, tout en assurant une interaction automatique entre les modalités sans étape supplémentaire de fusion. Plus important encore, afin d’exploiter pleinement les complémentarités entre les différents types de capteurs, nous proposons une nouvelle stratégie d’intégration multi-modale qui prend en compte à la fois les informations sémantiques riches issues de la perspective 2D et les relations géométriques précises entre voisins creux en 3D. UniTR est également un modèle fondamental fondamentalement indépendant des tâches, naturellement compatible avec diverses tâches de perception 3D. Il établit un nouveau record sur le benchmark nuScenes, atteignant une amélioration de +1,1 en NDS pour la détection d’objets 3D et de +12,0 en mIoU pour la segmentation de carte BEV, tout en réduisant la latence d’inférence. Le code sera disponible à l’adresse suivante : https://github.com/Haiyang-W/UniTR.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
UniTR : Un Transformer multimodal unifié et efficace pour la représentation vue de dessus | Articles | HyperAI