Segmentation d'instances 3D par apprentissage métrique multi-tâches

Nous proposons une nouvelle méthode pour la segmentation de labels d'instances dans des grilles de voxels 3D denses. Nous nous concentrons sur les représentations volumiques de scènes, acquises à l'aide de capteurs de profondeur ou de méthodes stéréoscopiques multi-vues et traitées par des méthodes de reconstruction sémantique 3D ou de complétion de scène. La tâche principale consiste à apprendre des informations sur la forme des instances individuelles d'objets afin de les séparer avec précision, y compris les objets connectés et partiellement numérisés.Nous résolvons le problème de labellisation d'instances 3D grâce à une stratégie d'apprentissage multi-tâches. Le premier objectif est d'apprendre un plongement dans un espace de caractéristiques abstrait, qui rapproche les voxels ayant le même label d'instance tout en séparant les clusters avec des labels d'instance différents. Le deuxième objectif est d'apprendre des informations sur les instances en estimant densément l'information directionnelle du centre de masse de chaque instance pour chaque voxel. Cela est particulièrement utile pour identifier les frontières entre les instances lors de l'étape post-traitement de clustering, ainsi que pour évaluer la qualité du segmentage du premier objectif.Des expériences tant synthétiques que réelles démontrent la viabilité et les avantages de notre approche. En effet, elle atteint des performances au niveau de l'état de l'art sur le benchmark ScanNet pour la segmentation d'instances 3D.