Vers l'apprentissage de représentations 3D à grande échelle grâce à l'entraînement par point prompt multi-jeux de données

L'avancement rapide des modèles d'apprentissage profond s'explique souvent par leur capacité à exploiter de vastes quantités de données d'entraînement. En revanche, ce privilège n'a pas encore pleinement bénéficié à l'apprentissage profond 3D, principalement en raison de la faible disponibilité de jeux de données 3D à grande échelle. Le regroupement de plusieurs sources de données disponibles et la mise en œuvre d'un entraînement collaboratif d'un seul modèle constituent une solution prometteuse. Toutefois, en raison de l'important écart de domaine entre les jeux de données de nuages de points 3D, une telle supervision mixte pourrait nuire aux performances du modèle et entraîner une dégradation significative (c’est-à-dire un transfert négatif) par rapport à un entraînement sur un seul jeu de données. Face à ce défi, nous introduisons Point Prompt Training (PPT), un cadre novateur pour l'apprentissage synergique multi-jeux de données dans le contexte de l'apprentissage de représentations 3D, qui supporte plusieurs paradigmes de pré-entraînement. À partir de ce cadre, nous proposons Prompt-driven Normalization, une méthode qui adapte le modèle à différents jeux de données à l’aide de prompts spécifiques au domaine, ainsi que Language-guided Categorical Alignment, qui unifie de manière efficace les espaces d’étiquettes multi-jeux de données en exploitant les relations entre les libellés textuels. Des expériences étendues montrent que PPT permet de surmonter le transfert négatif associé à l'apprentissage synergique et produit des représentations généralisables. Notamment, il atteint des performances de pointe sur chaque jeu de données en utilisant un seul modèle partagé et entraîné de manière supervisée sur plusieurs jeux de données. De plus, lorsqu’il est utilisé comme cadre de pré-entraînement, PPT dépasse les autres approches de pré-entraînement en termes de qualité des représentations et obtient des résultats remarquables et de pointe sur plus de dix tâches en aval diverses, couvrant à la fois des scénarios intérieurs et extérieurs 3D.