il y a 2 mois

MV-RAG : diffusion multivue augmentée par récupération

Yosef Dayani Omer Benishu Sagie Benaim

Résumé

Les méthodes de génération 3D à partir de texte ont considérablement progressé grâce à l’utilisation de priori pré-entraînés de diffusion 2D, permettant d’obtenir des sorties de haute qualité et cohérentes en 3D. Toutefois, elles peinent souvent à générer des concepts hors domaine (OOD) ou rares, produisant des résultats incohérents ou peu précis. À cet effet, nous proposons MV-RAG, une nouvelle chaîne de traitement text-to-3D qui commence par récupérer des images 2D pertinentes à partir d’une grande base de données 2D d’images réelles (in-the-wild), puis conditionne un modèle de diffusion multivue à partir de ces images afin de synthétiser des sorties multivue cohérentes et précises. L’entraînement d’un tel modèle conditionné par récupération est réalisé via une stratégie hybride originale reliant des données structurées multivue et des collections diversifiées d’images 2D. Cette approche consiste à entraîner le modèle sur des données multivue en utilisant des vues conditionnées augmentées qui simulent la variabilité de récupération pour la reconstruction spécifique à chaque vue, tout en entraînant le modèle sur des ensembles d’images 2D réelles récupérées à l’aide d’un objectif distinctif de prédiction de vue exclue : le modèle prédit une vue non observée à partir des autres vues afin d’inférer la cohérence 3D à partir de données 2D. Pour faciliter une évaluation rigoureuse des performances sur des concepts hors domaine, nous introduisons une nouvelle collection de prompts OOD particulièrement exigeants. Des expériences comparatives avec les méthodes de pointe en génération text-to-3D, image-to-3D et personnalisation montrent que notre approche améliore significativement la cohérence 3D, la photoréalisme et le respect du texte pour les concepts OOD ou rares, tout en maintenant des performances compétitives sur les benchmarks standards.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

MV-RAG : diffusion multivue augmentée par récupération

Yosef Dayani Omer Benishu Sagie Benaim

Résumé

Construire l'IA avec l'IA

Hyper Newsletters