Tinker : Le don de la diffusion à l'édition 3D cohérente sur plusieurs vues à partir d'entrées éparses sans optimisation par scène

Nous introduisons Tinker, un cadre polyvalent pour l’édition 3D de haute fidélité qui fonctionne aussi bien en régime « one-shot » qu’en régime « few-shot », sans nécessiter de fine-tuning par scène. Contrairement aux approches antérieures qui exigent une optimisation intensive par scène afin d’assurer la cohérence multi-vues ou de produire des dizaines d’images éditées cohérentes, Tinker permet d’obtenir des éditions robustes et cohérentes à plusieurs vues à partir d’un seul ou de deux simples images. Cette capacité découle de la réutilisation de modèles pré-entraînés de diffusion, ce qui exploite leur sens latent de la 3D. Pour stimuler la recherche dans ce domaine, nous avons constitué le premier ensemble de données à grande échelle pour l’édition multi-vues, ainsi qu’un pipeline de traitement couvrant une diversité de scènes et de styles. À partir de cet ensemble, nous avons développé notre cadre, capable de générer des vues éditées cohérentes à plusieurs angles sans entraînement par scène, composé de deux composants novateurs : (1) un éditeur multi-vues par référence : permet des éditions précises pilotées par une référence, restant cohérentes à toutes les vues ; (2) un synthétiseur « any-view-to-video » : exploite des priori spatio-temporels issus des modèles de diffusion vidéo pour réaliser une complétion de scène de haute qualité et une génération de nouvelles vues, même à partir d’entrées très éparse. Grâce à des expériences approfondies, Tinker réduit considérablement la barrière à la création de contenus 3D généralisables, atteignant des performances de pointe dans les tâches d’édition, de synthèse de nouvelles vues et d’amélioration du rendu. Nous pensons que Tinker constitue une étape clé vers une édition 3D véritablement évolutif et zéro-shot.Page du projet : https://aim-uofa.github.io/Tinker