INFERNO : Inférence de représentations 3D centrées sur les objets sans supervision

Nous proposons INFERNO, une méthode permettant d’inférer des représentations centrées sur les objets dans des scènes visuelles sans recourir à des annotations. Notre approche apprend à décomposer une scène en plusieurs objets, chacun étant représenté par une structure explicite qui sépare de manière désentrelacée sa forme, son apparence et sa pose 3D. Pour imposer cette structure, nous nous appuyons sur les avancées récentes en rendu 3D par réseaux neuronaux. Chaque représentation d’objet définit un champ de radiance neuronal localisé, utilisé pour générer des vues 2D de la scène via un processus de rendu différentiable. Notre modèle est ensuite entraîné en minimisant une perte de reconstruction entre les entrées et les scènes rendues correspondantes. Nous montrons empiriquement que INFERNO parvient à découvrir des objets dans une scène sans apprentissage supervisé. Nous validons également l’interprétabilité des représentations apprises en manipulant les scènes inférées et en observant les effets correspondants dans les sorties rendues. Enfin, nous démontrons l’utilité de nos représentations d’objets 3D dans une tâche de raisonnement visuel à l’aide du jeu de données CATER.