HyperAIHyperAI
il y a 12 jours

AdaCrossNet : Pondération dynamique adaptative des pertes pour l'apprentissage contrastif multimodal des nuages de points

{Mauridhi Hery Purnomo, Eko Mulyanto Yuniarno, Kohichi Ogata, Oddy Virgantara Putra}
AdaCrossNet : Pondération dynamique adaptative des pertes pour l'apprentissage contrastif multimodal des nuages de points
Résumé

L’annotation manuelle des grands ensembles de données de nuages de points est fastidieuse en raison de leur structure irrégulière. Bien que les méthodes d’apprentissage contrastif multimodal telles que CrossPoint et CrossNet aient progressé dans l’utilisation de données multimodales pour l’apprentissage non supervisé, elles souffrent encore d’une instabilité pendant l’entraînement, due au poids statique attribué aux pertes intra-modales (IM) et inter-modales (CM). Ces poids fixes ne tiennent pas compte des taux de convergence variables observés pour les différentes modalités. Nous proposons AdaCrossNet, un nouveau cadre d’apprentissage non supervisé pour la compréhension des nuages de points, qui intègre un mécanisme d’ajustement dynamique des poids pour les apprentissages contrastifs intra- et inter-modaux. AdaCrossNet apprend des représentations en renforçant simultanément l’alignement entre les nuages de points 3D et leurs images 2D associées, rendues à partir de ces nuages, dans un espace latent commun. Notre mécanisme d’ajustement dynamique des poids équilibre de manière adaptative les contributions des pertes IM et CM pendant l’entraînement, en se basant sur le comportement de convergence de chaque modalité. Pour garantir la stabilité du processus d’entraînement, nous utilisons une moyenne mobile exponentielle (EWMA) afin de lisser les mises à jour des poids. Nous avons testé notre méthode sur des jeux de données standards : ModelNet40, ShapeNetPart et ScanObjectNN. Les résultats montrent que AdaCrossNet surpasser les autres approches, atteignant une précision de 91,4 % sur la tâche de classification ModelNet40. En segmentation, AdaCrossNet obtient un score mIoU de 85,1 % sur ShapeNetPart. De plus, combiné au modèle DGCNN comme architecture principale, AdaCrossNet montre des améliorations significatives sur ScanObjectNN, avec une précision de 82,1 %. Notre méthode améliore l’efficacité de l’entraînement tout en renforçant la généralisation des représentations apprises sur des tâches ultérieures.