HyperAIHyperAI
il y a 2 mois

UMIFormer : Extraction des corrélations entre les jetons similaires pour la reconstruction 3D multi-vue

Zhenwei Zhu; Liying Yang; Ning Li; Chaohao Jiang; Yanyan Liang
UMIFormer : Extraction des corrélations entre les jetons similaires pour la reconstruction 3D multi-vue
Résumé

Ces dernières années, de nombreuses tâches vidéo ont connu des avancées significatives en utilisant le vision transformer et en établissant une découplage spatio-temporel pour l'extraction de caractéristiques. Bien que la reconstruction 3D multivue fasse également face à plusieurs images en entrée, elle ne peut pas immédiatement tirer parti de ces succès en raison d'associations complètement ambiguës entre les vues non structurées. Il n'existe pas de relation préalable utilisable, similaire à la propriété de cohérence temporelle dans une vidéo. Pour résoudre ce problème, nous proposons un nouveau réseau transformer pour les Images Multivues Non Structurées (UMIFormer). Ce réseau exploite des blocs transformer pour le codage intra-vue découplé et des blocs conçus spécifiquement pour la rectification des jetons qui exploitent la corrélation entre des jetons similaires provenant de différentes vues afin d'atteindre un codage inter-vue découplé. Ensuite, tous les jetons obtenus à partir de diverses branches sont compressés en une représentation compacte de taille fixe tout en préservant des informations riches pour la reconstruction, grâce aux similarités entre les jetons. Nous démontrons empiriquement sur ShapeNet que notre méthode d'apprentissage découplée est adaptable aux images multivues non structurées. Par ailleurs, les expériences confirment également que notre modèle surpasse largement les méthodes SOTA existantes. Le code sera disponible sur https://github.com/GaryZhu1996/UMIFormer.

UMIFormer : Extraction des corrélations entre les jetons similaires pour la reconstruction 3D multi-vue | Articles de recherche récents | HyperAI