Transformateur de Groupement à Longue Portée pour la Reconstruction 3D Multivue

Aujourd'hui, les réseaux de transformateurs ont démontré des performances supérieures dans de nombreuses tâches de vision par ordinateur. Dans un algorithme de reconstruction 3D multi-vue s'inscrivant dans ce paradigme, le traitement de l'auto-attention doit gérer des jetons d'image complexes contenant une grande quantité d'informations lorsqu'il fait face à des volumes importants d'entrées multi-vues. Le problème du contenu d'information conduit à une extrême difficulté dans l'apprentissage du modèle. Pour atténuer ce problème, des méthodes récentes compresse le nombre de jetons représentant chaque vue ou éliminent les opérations d'attention entre les jetons provenant de vues différentes. Il est évident que ces approches ont un impact négatif sur les performances. Par conséquent, nous proposons une attention à longue portée basée sur le principe diviser pour régner, appelée long-range grouping attention (LGA). Les jetons provenant de toutes les vues sont regroupés pour des opérations d'attention distinctes. Les jetons dans chaque groupe sont échantillonnés à partir de toutes les vues et peuvent fournir une représentation macroscopique pour la vue concernée. La richesse de l'apprentissage des caractéristiques est garantie par la diversité entre les différents groupes. Un encodeur efficace et performant peut être mis en place, qui connecte les caractéristiques inter-vues en utilisant LGA et extrait les caractéristiques intra-vues en utilisant la couche d'auto-attention standard. De plus, un nouveau décodeur progressif d'échantillonnage est également conçu pour générer des voxels avec une résolution relativement élevée. Grâce aux éléments mentionnés ci-dessus, nous construisons un réseau puissant basé sur les transformateurs, appelé LRGT (Long-Range Grouping Transformer). Les résultats expérimentaux sur ShapeNet confirment que notre méthode atteint une précision SOTA (State-of-the-Art) en reconstruction multi-vue. Le code sera disponible sur https://github.com/LiyingCV/Long-Range-Grouping-Transformer.