UniTR : Un Transformer multimodal unifié et efficace pour la représentation vue de dessus

Le traitement conjoint des informations provenant de plusieurs capteurs est essentiel pour obtenir une perception précise et robuste, indispensable aux systèmes d’automatisation fiables. Toutefois, la recherche actuelle en perception 3D suit un paradigme spécifique à chaque modalité, entraînant des surcharges computationnelles supplémentaires et une collaboration inefficace entre les données provenant de capteurs différents. Dans ce travail, nous proposons UniTR, un nouveau modèle fondamental efficace pour la perception 3D en extérieur, capable de traiter diverses modalités grâce à une modélisation unifiée et à des paramètres partagés. Contrairement aux approches antérieures, UniTR introduit un encodeur transformer indépendant de la modalité, permettant de traiter les données provenant de capteurs à perspectives différentes afin d’apprendre en parallèle des représentations propres à chaque modalité, tout en assurant une interaction automatique entre les modalités sans étape supplémentaire de fusion. Plus important encore, afin d’exploiter pleinement les complémentarités entre les différents types de capteurs, nous proposons une nouvelle stratégie d’intégration multi-modale qui prend en compte à la fois les informations sémantiques riches issues de la perspective 2D et les relations géométriques précises entre voisins creux en 3D. UniTR est également un modèle fondamental fondamentalement indépendant des tâches, naturellement compatible avec diverses tâches de perception 3D. Il établit un nouveau record sur le benchmark nuScenes, atteignant une amélioration de +1,1 en NDS pour la détection d’objets 3D et de +12,0 en mIoU pour la segmentation de carte BEV, tout en réduisant la latence d’inférence. Le code sera disponible à l’adresse suivante : https://github.com/Haiyang-W/UniTR.