Que Apprennent les Réseaux de Reconstruction 3D à Partir d'une Vue Unique ?

Les réseaux de convolution pour la reconstruction d'objets à partir d'une seule vue ont montré des performances impressionnantes et sont devenus un sujet de recherche populaire. Toutes les techniques existantes partagent l'idée d'utiliser un réseau encodeur-décodeur qui effectue une raisonnement non trivial sur la structure 3D de l'espace de sortie. Dans cette étude, nous proposons deux approches alternatives qui réalisent respectivement la classification d'images et la recherche d'images. Ces baselines simples produisent des résultats supérieurs aux méthodes les plus avancées actuellement disponibles, tant qualitativement que quantitativement. Nous démontrons que les méthodes encodeur-décodeur ne sont pas statistiquement distinguables de ces baselines, ce qui suggère que l'état actuel de l'art en reconstruction d'objets à partir d'une seule vue ne réalise pas réellement une reconstruction mais plutôt une classification d'images. Nous identifions les aspects des procédures expérimentales populaires qui provoquent ce comportement et discutons des moyens d'améliorer l'état actuel de la recherche.