Contrast avec Reconstruct : Apprentissage de représentations 3D contrastives guidé par un pré-entraînement génératif

Les approches principales d'apprentissage de représentations 3D sont basées sur des tâches prétextes de modélisation contrastive ou générative, où des améliorations considérables des performances ont été réalisées dans diverses tâches en aval. Cependant, nous constatons que ces deux paradigmes présentent des caractéristiques différentes : (i) les modèles contrastifs sont gourmands en données et souffrent d'un problème de surajustement des représentations ; (ii) les modèles génératifs ont un problème de remplissage de données qui montre une capacité d'évolutivité inférieure par rapport aux modèles contrastifs. Cette observation nous motive à apprendre des représentations 3D en combinant les avantages des deux paradigmes, ce qui n'est pas trivial en raison de la différence de schéma entre ces deux paradigmes. Dans cet article, nous proposons Contrast with Reconstruct (ReCon), qui unifie ces deux paradigmes. ReCon est formé pour apprendre auprès de modèles enseignants génératifs et contrastifs mono/cross-modaux par distillation par ensemble, où l'étudiant génératif guide l'étudiant contrastif. Nous proposons un bloc ReCon de type encodeur-décodeur qui transfère la connaissance par attention croisée avec arrêt du gradient, évitant ainsi les problèmes de surajustement lors du pré-entraînement et de différence de schéma. ReCon atteint un nouveau niveau d'excellence dans l'apprentissage de représentations 3D, par exemple avec une précision de 91,26 % sur ScanObjectNN. Le code source est disponible à l'adresse suivante : https://github.com/qizekun/ReCon.