HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur de Groupement à Longue Portée pour la Reconstruction 3D Multivue

Liying Yang Zhenwei Zhu Xuxin Lin Jian Nong Yanyan Liang

Résumé

Aujourd'hui, les réseaux de transformateurs ont démontré des performances supérieures dans de nombreuses tâches de vision par ordinateur. Dans un algorithme de reconstruction 3D multi-vue s'inscrivant dans ce paradigme, le traitement de l'auto-attention doit gérer des jetons d'image complexes contenant une grande quantité d'informations lorsqu'il fait face à des volumes importants d'entrées multi-vues. Le problème du contenu d'information conduit à une extrême difficulté dans l'apprentissage du modèle. Pour atténuer ce problème, des méthodes récentes compresse le nombre de jetons représentant chaque vue ou éliminent les opérations d'attention entre les jetons provenant de vues différentes. Il est évident que ces approches ont un impact négatif sur les performances. Par conséquent, nous proposons une attention à longue portée basée sur le principe diviser pour régner, appelée long-range grouping attention (LGA). Les jetons provenant de toutes les vues sont regroupés pour des opérations d'attention distinctes. Les jetons dans chaque groupe sont échantillonnés à partir de toutes les vues et peuvent fournir une représentation macroscopique pour la vue concernée. La richesse de l'apprentissage des caractéristiques est garantie par la diversité entre les différents groupes. Un encodeur efficace et performant peut être mis en place, qui connecte les caractéristiques inter-vues en utilisant LGA et extrait les caractéristiques intra-vues en utilisant la couche d'auto-attention standard. De plus, un nouveau décodeur progressif d'échantillonnage est également conçu pour générer des voxels avec une résolution relativement élevée. Grâce aux éléments mentionnés ci-dessus, nous construisons un réseau puissant basé sur les transformateurs, appelé LRGT (Long-Range Grouping Transformer). Les résultats expérimentaux sur ShapeNet confirment que notre méthode atteint une précision SOTA (State-of-the-Art) en reconstruction multi-vue. Le code sera disponible sur https://github.com/LiyingCV/Long-Range-Grouping-Transformer.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Transformateur de Groupement à Longue Portée pour la Reconstruction 3D Multivue | Articles | HyperAI