il y a 4 mois

Point-LGMask : Intégration de Contextes Locaux et Globaux pour l'Pré-entraînement de Nuages de Points par Masquage Multiratio

Voir les détails de l'article Voir le code

{Min Chen Yixue Hao Long Hu Qiao Yu Jinfeng Xu Xianzhi Li Yuan Tang}

Résumé

L’apprentissage auto-supervisé a connu un grand succès tant en traitement du langage naturel qu’en vision 2D, où le modèle masqué constitue une approche pré-entraînement très répandue. Toutefois, étendre le masquage à la compréhension des nuages de points 3D, qui combine des caractéristiques locales et globales, soulève de nouveaux défis. Dans notre travail, nous proposons Point-LGMask, une méthode novatrice permettant d’intégrer à la fois les contextes locaux et globaux grâce à un masquage à plusieurs ratios, une approche particulièrement efficace pour l’apprentissage auto-supervisé des représentations de nuages de points, mais qui reste négligée par les travaux existants sur le pré-entraînement. Plus précisément, afin d’éviter un ajustement à un ratio de masquage fixe, nous introduisons d’abord le masquage à plusieurs ratios, qui incite l’encodeur à explorer pleinement des caractéristiques représentatives grâce à des tâches de difficultés variées. Ensuite, pour favoriser l’encodage à la fois des caractéristiques locales et globales, nous formulons une perte combinée composée de : (i) une perte contrastive sur les représentations globales, visant à assurer la cohérence des affectations de clusters entre les nuages de points masqués et l’entrée complétée ; et (ii) une perte de prédiction des points locaux, visant à garantir une prédiction précise des points masqués. Grâce à notre Point-LGMask, nous démontrons que les représentations apprises se transmettent efficacement à diverses tâches en aval, notamment la classification à faible nombre d’exemples, la classification de formes, la segmentation des parties d’objets, ainsi que la détection d’objets 3D et la segmentation sémantique 3D basées sur des scènes réelles. En particulier, notre modèle améliore considérablement les méthodes pré-entraînées existantes sur la tâche exigeante de classification à faible nombre d’exemples, utilisant le jeu de données réellement capté ScanObjectNN, en dépassant de plus de 4 % la deuxième meilleure méthode. De plus, Point-LGMask atteint des gains de 0,4 % en AP25 et de 0,8 % en AP50 sur la tâche de détection d’objets 3D par rapport à la deuxième meilleure méthode, ainsi que des gains de 0,4 % en mAcc et de 0,5 % en mIoU. Le code source est disponible à l’adresse suivante : https://github.com/TangYuan96/Point-LGMask

Dépôts de code

TangYuan96/Point-LGMask

Benchmarks

Benchmark	Méthodologie	Métriques
3d-point-cloud-classification-on-scanobjectnn	Point-LGMask	OBJ-BG (OA): 89.8 OBJ-ONLY (OA): 89.3 Overall Accuracy: 85.3
few-shot-3d-point-cloud-classification-on-1	Point-LGMask	Overall Accuracy: 97.4 Standard Deviation: 2.0
few-shot-3d-point-cloud-classification-on-2	Point-LGMask	Overall Accuracy: 98.1 Standard Deviation: 1.4
few-shot-3d-point-cloud-classification-on-3	Point-LGMask	Overall Accuracy: 92.6 Standard Deviation: 4.3
few-shot-3d-point-cloud-classification-on-4	Point-LGMask	Overall Accuracy: 95.1 Standard Deviation: 3.4

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette