FreeMorph : Morphing d'images généralisé sans ajustement avec un modèle de diffusion

Nous présentons FreeMorph, la première méthode d'interpolation d'images (image morphing) sans ajustement qui permet de traiter des entrées avec différentes sémantiques ou dispositions. Contrairement aux méthodes existantes qui reposent sur l'affinage de modèles de diffusion pré-entraînés et sont limitées par des contraintes temporelles et des écarts sémantiques/dispositionnels, FreeMorph fournit une interpolation d'images de haute fidélité sans nécessiter un entraînement spécifique pour chaque instance. Bien que ces méthodes sans ajustement soient efficaces et prometteuses, elles font face à des défis dans le maintien de résultats de haute qualité en raison de la nature non linéaire du processus débruitant multi-étapes et des biais hérités du modèle de diffusion pré-entraîné. Dans cet article, nous introduisons FreeMorph pour relever ces défis en intégrant deux innovations clés. 1) Nous proposons tout d'abord un design d'interpolation sphérique sensible à la guidance qui incorpore une guidance explicite provenant des images d'entrée en modifiant les modules d'auto-attention, permettant ainsi de résoudre la perte d'identité et d'assurer des transitions directionnelles tout au long de la séquence générée. 2) Nous introduisons également une tendance variationnelle orientée par les étapes qui combine les modules d'auto-attention issus de chaque image d'entrée pour réaliser des transitions contrôlées et cohérentes respectant les deux entrées. Nos évaluations approfondies montrent que FreeMorph surpasse les méthodes existantes, étant 10 à 50 fois plus rapide et établissant un nouveau standard dans le domaine de l'interpolation d'images (image morphing).