Exploiter les modèles de diffusion pour la perception visuelle à l’aide de prompts méta

Le problème de la pré-formation générative pour les modèles visuels demeure un défi persistant. Actuellement, les modèles de diffusion texte-image (T2I) démontrent une maîtrise remarquable dans la génération d’images haute définition correspondant à des entrées textuelles, une capacité rendue possible grâce à leur pré-formation sur de vastes jeux de données image-texte. Cette avancée soulève naturellement une question : peut-on exploiter les modèles de diffusion pour résoudre des tâches de perception visuelle ? Dans cet article, nous proposons un schéma simple mais efficace visant à tirer parti d’un modèle de diffusion pour des tâches de perception visuelle. Notre idée centrale consiste à introduire des embeddings apprenables (appelés « méta-prompts ») dans les modèles de diffusion pré-entraînés afin d’extraire des caractéristiques adaptées à la perception. L’effet des méta-prompts est double : d’une part, ils remplacent directement les embeddings textuels dans les modèles T2I, activant ainsi les caractéristiques pertinentes pour la tâche en cours lors de l’extraction ; d’autre part, ils servent à réorganiser les caractéristiques extraites afin que le modèle se concentre sur les éléments les plus significatifs pour la tâche traitée. Par ailleurs, nous avons conçu une stratégie d’entraînement itératif de raffinement, exploitant pleinement les propriétés inhérentes aux modèles de diffusion, ce qui permet d’obtenir des caractéristiques visuelles plus puissantes. Des expérimentations étendues sur diverses bases de données confirment l’efficacité de notre approche. Elle établit de nouveaux records de performance pour les tâches d’estimation de profondeur sur les jeux de données NYU Depth V2 et KITTI, ainsi que pour la segmentation sémantique sur CityScapes. Par ailleurs, la méthode proposée atteint des résultats comparables aux états de l’art actuels en segmentation sémantique sur ADE20K et en estimation de posture sur COCO, illustrant ainsi sa robustesse et sa polyvalence.