CrossMoCo : apprentissage contrastif par momentum multi-modal pour les nuages de points
Le nuage de points est une donnée géométrique 3D dépourvue d'une structure spécifique et invariante par permutation. Les applications des nuages de points ont récemment suscité un intérêt croissant dans le domaine des tâches de vision. Toutefois, la plupart des travaux existants sur les nuages de points reposent sur l'apprentissage supervisé à partir de grands ensembles de données étiquetées, qui sont coûteux et laborieux à collecter. À cet égard, l'apprentissage non supervisé, notamment l'apprentissage auto-supervisé, a montré des performances prometteuses dans diverses tâches de vision par ordinateur 2D et présente un potentiel important pour les applications en vision 3D. Dans cette étude, nous proposons une nouvelle méthode auto-supervisée, nommée CrossMoCo, qui apprend des représentations à partir de données de nuages de points non étiquetées dans un cadre multimodal, en exploitant également les images 2D rendues à partir de ces nuages. CrossMoCo surpasse les méthodes existantes en apprentissage auto-supervisé multimodal sur les nuages de points en introduisant deux concepts novateurs : l’apprentissage contrastif à momentum avec un plus grand nombre d’échantillons négatifs, et l’apprentissage contrastif intra-modale à plusieurs vues. Le premier composant apprend à partir d’un encodeur en ligne et d’un encodeur à momentum, en utilisant un grand nombre d’échantillons négatifs, ce qui fournit des signaux d’apprentissage cohérents. Le second composant impose une cohérence entre différentes vues des échantillons appartenant à la même modalité, améliorant ainsi la qualité des représentations multimodales. Nous menons des études approfondies sur deux jeux de données standardisées populaires (ModelNet40 et ScanObjectNN) pour des tâches de classification linéaire et d’apprentissage à faible nombre d’exemples. Nos résultats démontrent que CrossMoCo atteint des performances supérieures par rapport aux méthodes existantes sur les deux tâches et les deux jeux de données, avec une amélioration maximale de 4,36 % pour la classification linéaire et jusqu’à 9,2 % pour les tâches à faible nombre d’exemples. Le code source est disponible à l’adresse suivante : https://github.com/snehaputul/CrossMoCo.