ForkNet : Complétion sémantique volumétrique multi-branche à partir d'une seule image de profondeur

Nous proposons un modèle novateur pour l'achèvement sémantique 3D à partir d'une seule image de profondeur, basé sur un seul encodeur et trois générateurs distincts utilisés pour reconstruire différentes représentations géométriques et sémantiques de la scène originale et complétée, tous partageant le même espace latent. Pour transférer les informations entre les branches géométriques et sémantiques du réseau, nous introduisons des chemins entre elles en concaténant les caractéristiques aux couches correspondantes du réseau. Motivés par la quantité limitée d'échantillons d'entraînement provenant de scènes réelles, une caractéristique intéressante de notre architecture est sa capacité à compléter l'ensemble de données existant en générant un nouveau jeu d'entraînement avec des scènes réalistes de haute qualité, incluant même des occultations et du bruit réel. Nous construisons ce nouveau jeu de données en échantillonnant directement les caractéristiques dans l'espace latent, ce qui génère un couple de surface volumique partielle et de surface volumique sémantique complétée. De plus, nous utilisons plusieurs discriminateurs pour augmenter la précision et le réalisme des reconstructions. Nous démontrons les avantages de notre approche sur des benchmarks standards pour les deux tâches d'achèvement les plus courantes : l'achèvement sémantique 3D de scènes et l'achèvement 3D d'objets.