HyperAIHyperAI
il y a 2 mois

Vers des représentations 3D compactes par l'intermédiaire de masques d'autoencodeurs avec amélioration des caractéristiques ponctuelles

Zha, Yaohua ; Ji, Huizhen ; Li, Jinmin ; Li, Rongsheng ; Dai, Tao ; Chen, Bin ; Wang, Zhi ; Xia, Shu-Tao
Vers des représentations 3D compactes par l'intermédiaire de masques d'autoencodeurs avec amélioration des caractéristiques ponctuelles
Résumé

L'apprentissage de représentations 3D joue un rôle crucial dans les méthodes d'auto-encodeur masqué (MAE) basées sur la préformation pour les nuages de points, qu'il s'agisse de méthodes mono-modales ou multi-modales. Plus précisément, bien que les méthodes multi-modales MAE apprennent des représentations 3D robustes grâce à l'aide d'autres connaissances modales, elles souffrent souvent de charges computationnelles importantes et dépendent fortement de paires de données multi-modales massives qui sont généralement indisponibles, ce qui entrave leurs applications pratiques. En revanche, les méthodes mono-modales utilisant uniquement des nuages de points comme entrée sont préférées dans les applications réelles en raison de leur simplicité et efficacité. Cependant, ces méthodes sont facilement limitées par des représentations 3D insuffisantes avec une entrée masquée aléatoire globale.Pour apprendre des représentations 3D plus compactes, nous proposons un auto-encodeur masqué simple mais efficace pour l'amélioration des caractéristiques ponctuelles (Point-FEMAE), qui se compose principalement d'une branche globale et d'une branche locale pour capturer des caractéristiques sémantiques latentes. Plus précisément, afin d'apprendre des caractéristiques plus compactes, un encodeur Transformer partageant les paramètres est introduit pour extraire des caractéristiques ponctuelles à partir des patches non masqués globaux et locaux obtenus par des stratégies de masquage aléatoire global et par bloc local, suivi d'un décodeur spécifique pour la reconstruction.Parallèlement, pour améliorer davantage les caractéristiques dans la branche locale, nous proposons un module d'amélioration locale avec une convolution de patch local pour percevoir le contexte local à grande échelle avec un grain fin. Notre méthode améliore considérablement l'efficacité de la préformation par rapport aux alternatives multi-modales, et de nombreuses expériences en aval soulignent son efficacité avancée, surpassant particulièrement notre modèle de base (Point-MAE) respectivement de 5,16 %, 5,00 % et 5,04 % dans trois variantes du dataset ScanObjectNN. Le code est disponible à l'adresse suivante : https://github.com/zyh16143998882/AAAI24-PointFEMAE.