Un paradigme unifié basé sur les requêtes pour la compréhension des nuages de points

La compréhension des nuages de points 3D constitue un élément fondamental dans les systèmes d’automatisation des véhicules et la robotique. Dans cet article, nous proposons un nouveau paradigme, appelé EQ-Paradigm (Embedding-Querying Paradigm), pour les tâches de compréhension 3D, incluant la détection, la segmentation et la classification. Le paradigme EQ est une approche unifiée permettant de combiner n’importe quelle architecture de base 3D existante avec des têtes de tâches différentes. Dans ce cadre, l’entrée est d’abord encodée durant une phase d’embedding à l’aide d’un architecture d’extraction de caractéristiques arbitraire, indépendante des tâches et des têtes. Ensuite, la phase de requête permet d’adapter les caractéristiques encodées à diverses têtes de tâches. Cette adaptation est réalisée en introduisant une représentation intermédiaire, appelée Q-représentation, au sein de la phase de requête, servant de pont entre la phase d’embedding et les têtes de tâches. Nous avons conçu un nouveau réseau, appelé Q-Net, pour la phase de requête. Des résultats expérimentaux étendus sur diverses tâches 3D — détection d’objets, segmentation sémantique, classification de formes — démontrent que le paradigme EQ associé à Q-Net constitue un pipeline général et efficace, permettant une collaboration flexible entre les architectures de base et les têtes de tâches, tout en améliorant significativement les performances des méthodes de pointe. Les codes et modèles sont disponibles à l’adresse suivante : https://github.com/dvlab-research/DeepVision3D.