Vue Inter-Prédiction GAN : Apprentissage non supervisé de représentations pour formes 3D en apprenant des mémoires globales de forme pour soutenir les prédictions locales de vue

Dans cet article, nous présentons une nouvelle approche d'apprentissage de représentation non supervisée pour les formes 3D, un défi important dans la recherche car elle évite l'effort manuel nécessaire à la collecte de données supervisées. Notre méthode entraîne une architecture de réseau neuronal basée sur les RNN (Réseaux de Neurones Récurrents) pour résoudre des tâches de prédiction inter-vues multiples pour chaque forme. Étant donné plusieurs vues voisines d'une forme, nous définissons la prédiction inter-vues comme la tâche de prédire la vue centrale parmi les vues d'entrée et de reconstruire ces vues dans un espace de caractéristiques de bas niveau. L'idée clé de notre approche est d'implémenter la représentation de la forme sous forme d'une mémoire globale spécifique à chaque forme, partagée entre toutes les prédictions inter-vues locales pour chaque forme. Intuitivement, cette mémoire permet au système d'agréger des informations utiles pour améliorer la résolution des tâches de prédiction inter-vues pour chaque forme et d'utiliser cette mémoire comme une représentation indépendante des vues. Notre approche obtient les meilleurs résultats en utilisant une combinaison de pertes L_2 et adversariales pour la tâche de prédiction inter-vues. Nous montrons que VIP-GAN surpassent les méthodes actuelles les plus avancées en apprentissage non supervisé de caractéristiques 3D sur trois grands ensembles de référence contenant des formes 3D.