BLIP-Diffusion : Représentation pré-entraînée de sujet pour la génération et l'édition d'images contrôlées à partir du texte

Les modèles de génération d'images à partir du texte guidés par un sujet créent de nouvelles représentations d'un sujet d'entrée basées sur des invites textuelles. Les modèles existants souffrent d'un temps de réglage fin long et de difficultés à préserver la fidélité du sujet. Pour surmonter ces limitations, nous présentons BLIP-Diffusion, un nouveau modèle de génération d'images guidé par un sujet qui prend en charge le contrôle multimodal, consommant des entrées d'images de sujets et des invites textuelles. Contrairement aux autres modèles de génération guidée par un sujet, BLIP-Diffusion introduit un nouvel encodeur multimodal pré-entraîné pour fournir une représentation du sujet. Nous pré-entraînons d'abord l'encodeur multimodal selon BLIP-2 afin de produire une représentation visuelle alignée avec le texte. Ensuite, nous concevons une tâche d'apprentissage de la représentation du sujet qui permet à un modèle de diffusion d'utiliser cette représentation visuelle pour générer de nouvelles rendus du sujet. Comparé aux méthodes précédentes comme DreamBooth, notre modèle permet une génération guidée par un sujet sans apprentissage (zero-shot) et un réglage fin efficace pour des sujets personnalisés, avec jusqu'à 20 fois plus de rapidité. Nous démontrons également que BLIP-Diffusion peut être combiné de manière flexible avec des techniques existantes telles que ControlNet et prompt-to-prompt pour permettre des applications innovantes de génération et d'édition guidées par un sujet. Le code et les modèles seront mis à disposition sur https://github.com/salesforce/LAVIS/tree/main/projects/blip-diffusion. La page du projet est accessible à l'adresse https://dxli94.github.io/BLIP-Diffusion-website/.