HyperAIHyperAI
il y a 11 jours

Faites que les images vous offrent davantage : entraînement multicodal par nuage de points pour l'analyse de formes

Xu Yan, Heshen Zhan, Chaoda Zheng, Jiantao Gao, Ruimao Zhang, Shuguang Cui, Zhen Li
Faites que les images vous offrent davantage : entraînement multicodal par nuage de points pour l'analyse de formes
Résumé

Bien que l’analyse récente des nuages de points ait connu des progrès remarquables, le paradigme d’apprentissage de représentation à partir d’une seule modalité rencontre progressivement ses limites. Dans ce travail, nous faisons une avancée vers une représentation 3D des nuages de points plus discriminative en exploitant pleinement les images, qui contiennent intrinsèquement des informations d’apparence plus riches, telles que la texture, la couleur et l’ombrage. Plus précisément, cette étude introduit une stratégie simple mais efficace d’apprentissage croisémantique pour les nuages de points, appelée PointCMT (Point Cloud Cross-Modality Training), qui utilise des images de vue — c’est-à-dire des images 2D rendues ou projetées d’un objet 3D — afin d’améliorer l’analyse des nuages de points. En pratique, pour extraire efficacement des connaissances complémentaires à partir des images de vue, nous proposons un cadre enseignant-élève et formulons l’apprentissage cross-modale comme un problème de distillation de connaissances. PointCMT élimine le déséquilibre de distribution entre les différentes modalités grâce à de nouveaux critères d’amélioration des caractéristiques et du classificateur, tout en évitant efficacement le transfert négatif potentiel. Il est à noter que PointCMT améliore significativement la représentation basée uniquement sur les points sans nécessiter de modification de l’architecture. Des expériences abondantes confirment des gains substantiels sur diverses bases de données, en utilisant des architectures performantes : équipés de PointCMT, PointNet++ et PointMLP atteignent des résultats de pointe sur deux benchmarks, avec des précisions respectives de 94,4 % sur ModelNet40 et 86,7 % sur ScanObjectNN. Le code source sera mis à disposition à l’adresse suivante : https://github.com/ZhanHeshen/PointCMT.

Faites que les images vous offrent davantage : entraînement multicodal par nuage de points pour l'analyse de formes | Articles de recherche récents | HyperAI