HyperAI

Synthèse d'images et de géométrie sous un angle de vue nouveau alignées par l'instillation d'attention intermodale

Min-Seop Kwak, Junho Kim, Sangdoo Yun, Dongyoon Han, Taekyoung Kim, Seungryong Kim, Jin-Hwa Kim
Date de publication: 6/16/2025
Synthèse d'images et de géométrie sous un angle de vue nouveau alignées par l'instillation d'attention intermodale
Résumé

Nous présentons un cadre basé sur la diffusion qui réalise la génération d'images et de géométries sous des vues nouvelles et alignées grâce à une méthodologie de déformation et de complétion (warping-and-inpainting). Contrairement aux méthodes précédentes nécessitant des images posées denses ou des modèles génératifs intégrant des poses limités aux vues en domaine, notre méthode utilise des prédicteurs de géométrie hors catalogue pour prédire des géométries partielles vues depuis des images de référence, et formule la synthèse de vues nouvelles comme une tâche de complétion pour l'image et la géométrie. Pour garantir un alignement précis entre les images générées et la géométrie, nous proposons une distillation d'attention intermodale, où les cartes d'attention issues du branchement de diffusion d'image sont injectées dans un branchement parallèle de diffusion de géométrie lors de l'apprentissage et de l'inférence. Cette approche multitâche permet d'atteindre des effets synergiques, facilitant la synthèse d'images robustes sur le plan géométrique ainsi qu'une prédiction précise de la géométrie. Nous introduisons également une conditionnement maillé basé sur la proximité pour intégrer les indices de profondeur et de normales, interpolant entre nuage de points et filtrant les géométries prédites erronément afin qu'elles n'influencent pas le processus de génération. Expérimentalement, notre méthode atteint une synthèse extrapolative à haute fidélité pour les images et la géométrie dans une variété de scènes inconnues, fournit une qualité compétitive de reconstruction dans les configurations d'interpolation, et génère des nuages de points colorés alignés sur le plan géométrique pour une complétion 3D complète. La page du projet est disponible à l'adresse suivante : https://cvlab-kaist.github.io/MoAI.