IP-Adapter : Adaptateur d'images compatible avec le texte pour les modèles de diffusion text-to-image

Ces dernières années ont vu la puissance considérable des grands modèles de diffusion texte-image pour leur capacité générative impressionnante à créer des images de haute fidélité. Cependant, il est très délicat de générer les images souhaitées en utilisant uniquement un texte comme indicateur, car cela implique souvent une ingénierie de prompts complexes. Une alternative au prompt textuel est le prompt imagé, comme le dit l'adage : « une image vaut mille mots ».Bien que les méthodes actuelles de fine-tuning direct à partir de modèles pré-entraînés soient efficaces, elles nécessitent d'importantes ressources informatiques et ne sont pas compatibles avec d'autres modèles de base, prompts textuels et contrôles structurels. Dans cet article, nous présentons l'IP-Adapter, un adaptateur efficace et léger permettant d'ajouter une capacité de prompt imagé aux modèles de diffusion texte-image pré-entraînés. La conception clé de notre IP-Adapter repose sur un mécanisme d'attention croisée décorrélé qui sépare les couches d'attention croisée pour les caractéristiques textuelles et les caractéristiques visuelles.Malgré sa simplicité, un IP-Adapter doté de seulement 22 millions de paramètres peut atteindre des performances comparables voire supérieures à celles d'un modèle entièrement fine-tuné pour le prompt imagé. Comme nous figeons le modèle de diffusion pré-entraîné, l'IP-Adapter proposé peut être généralisé non seulement à d'autres modèles personnalisés fine-tunés à partir du même modèle de base, mais aussi à la génération contrôlée en utilisant des outils existants pour la génération contrôlée.Grâce aux avantages offerts par la stratégie d'attention croisée décorrélée, le prompt imagé peut également fonctionner efficacement en conjonction avec le prompt textuel pour réaliser une génération multimodale d'images. La page du projet est disponible à l'adresse suivante : \url{https://ip-adapter.github.io}.