Reconstruction 3D multi-vue avec Transformer

Les méthodes fondées sur les réseaux de neurones convolutifs profonds (Deep CNN) ont jusqu’à présent atteint les meilleurs résultats actuels en reconstruction 3D à partir de multiples vues. Malgré les progrès significatifs accomplis, les deux modules centraux de ces méthodes — l’extraction de caractéristiques multi-vues et la fusion de ces caractéristiques — sont généralement étudiés de manière indépendante, et les relations entre objets observés sous différentes perspectives restent rarement exploitées. Inspirés par les récents succès remarquables des modèles Transformer basés sur l’attention auto-associative, nous reformulons la reconstruction 3D multi-vues comme un problème de prédiction séquentielle à séquence et proposons un nouveau cadre, nommé 3D Volume Transformer (VolT), pour résoudre cette tâche. Contrairement aux méthodes CNN précédentes qui adoptent une architecture séparée, nous unifions l’extraction de caractéristiques et la fusion des vues au sein d’un seul réseau Transformer. Un avantage naturel de notre architecture réside dans sa capacité à explorer les relations entre vues grâce à l’attention auto-associative appliquée à plusieurs entrées non ordonnées. Sur ShapeNet, un grand jeu de données de référence pour la reconstruction 3D, notre méthode atteint une nouvelle performance record en reconstruction multi-vues, tout en utilisant 70 % moins de paramètres que les méthodes CNN existantes. Les résultats expérimentaux indiquent également une forte capacité d’échelle de notre approche. Le code source sera rendu publiquement disponible.