Command Palette
Search for a command to run...
Yosef Dayani Omer Benishu Sagie Benaim

Résumé
Les méthodes de génération 3D à partir de texte ont considérablement progressé grâce à l’utilisation de priori pré-entraînés de diffusion 2D, permettant d’obtenir des sorties de haute qualité et cohérentes en 3D. Toutefois, elles peinent souvent à générer des concepts hors domaine (OOD) ou rares, produisant des résultats incohérents ou peu précis. À cet effet, nous proposons MV-RAG, une nouvelle chaîne de traitement text-to-3D qui commence par récupérer des images 2D pertinentes à partir d’une grande base de données 2D d’images réelles (in-the-wild), puis conditionne un modèle de diffusion multivue à partir de ces images afin de synthétiser des sorties multivue cohérentes et précises. L’entraînement d’un tel modèle conditionné par récupération est réalisé via une stratégie hybride originale reliant des données structurées multivue et des collections diversifiées d’images 2D. Cette approche consiste à entraîner le modèle sur des données multivue en utilisant des vues conditionnées augmentées qui simulent la variabilité de récupération pour la reconstruction spécifique à chaque vue, tout en entraînant le modèle sur des ensembles d’images 2D réelles récupérées à l’aide d’un objectif distinctif de prédiction de vue exclue : le modèle prédit une vue non observée à partir des autres vues afin d’inférer la cohérence 3D à partir de données 2D. Pour faciliter une évaluation rigoureuse des performances sur des concepts hors domaine, nous introduisons une nouvelle collection de prompts OOD particulièrement exigeants. Des expériences comparatives avec les méthodes de pointe en génération text-to-3D, image-to-3D et personnalisation montrent que notre approche améliore significativement la cohérence 3D, la photoréalisme et le respect du texte pour les concepts OOD ou rares, tout en maintenant des performances compétitives sur les benchmarks standards.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.