il y a 9 jours

Synthèse de vue sans géométrie : Transformers et pas de priori 3D

Robin Rombach, Patrick Esser, Björn Ommer

Résumé

Un modèle géométrique est-il nécessaire pour synthétiser des vues nouvelles à partir d'une seule image ? Contrairement aux réseaux de neurones convolutifs (CNN), qui sont contraints par des convolutions locales et nécessitent des biais 3D explicites pour modéliser les transformations géométriques, nous démontrons qu’un modèle basé sur les transformateurs peut synthétiser des vues entièrement nouvelles sans aucun biais 3D conçu manuellement. Ceci est réalisé grâce à (i) un mécanisme d’attention globale permettant d’apprendre implicitement des correspondances 3D à longue portée entre les vues source et cible, et (ii) une formulation probabiliste nécessaire pour capturer l’ambiguïté inhérente à la prédiction de nouvelles vues à partir d’une seule image, permettant ainsi de surmonter les limitations des approches antérieures, restreintes à de petites variations d’angle de vue. Nous évaluons diverses méthodes d’intégration de priori 3D dans une architecture de transformateur. Toutefois, nos expériences montrent qu’aucun tel priori géométrique n’est nécessaire, et que le transformateur est capable d’apprendre implicitement les relations 3D entre les images. En outre, cette approche dépasse l’état de l’art en termes de qualité visuelle tout en couvrant l’ensemble de la distribution des réalisations possibles. Le code est disponible à l’adresse suivante : https://git.io/JOnwn