Vision multiple vers vision nouvelle : synthèse de nouvelles vues à l’aide d’une confiance auto-apprise

Nous abordons la tâche de synthèse de vues nouvelles à plusieurs vues, dans laquelle nous cherchons à générer une image cible à une pose de caméra arbitraire à partir d’images sources données. Nous proposons un cadre entraînable end-to-end qui apprend à exploiter plusieurs points de vue pour synthétiser une nouvelle vue sans supervision 3D. Plus précisément, notre modèle se compose d’un module de prédiction de flux et d’un module de génération de pixels, permettant ainsi de tirer parti directement des informations présentes dans les vues sources tout en imaginant (hallucinant) les pixels manquants à partir de prioris statistiques. Pour fusionner les prédictions produites par ces deux modules à partir de plusieurs vues sources, nous introduisons un mécanisme d’agrégation de confiance auto-apprise. Nous évaluons notre modèle sur des images rendues à partir de modèles 3D d’objets ainsi que sur des scènes réelles et synthétisées. Nous démontrons que notre modèle parvient à atteindre des résultats de pointe et à améliorer progressivement ses prédictions lorsque le nombre d’images sources augmente.