Contrôle des modèles vision-langage pour la restauration d'images multi-tâches

Les modèles de vision-langage tels que CLIP ont montré un impact considérable sur diverses tâches en aval pour des prédictions sans exemple ou sans étiquette. Cependant, lorsqu'il s'agit de la vision de bas niveau, comme la restauration d'images, leurs performances se détériorent considérablement en raison d'entrées corrompues. Dans cet article, nous présentons un modèle de vision-langage sensible à la dégradation (DA-CLIP) pour améliorer le transfert des modèles de vision-langage préentraînés vers des tâches de vision de bas niveau, dans le cadre d'un modèle multitâche pour la restauration d'images. Plus précisément, DA-CLIP entraîne un contrôleur supplémentaire qui adapte l'encodeur d'images fixe de CLIP afin de prédire des plongements (embeddings) de caractéristiques de haute qualité. En intégrant ces plongements dans un réseau de restauration d'images par le biais de l'attention croisée, nous sommes capables de guider le modèle à apprendre une reconstruction d'image fidèle. Le contrôleur lui-même produira également une caractéristique de dégradation qui correspond aux corruptions réelles de l'entrée, offrant ainsi un classificateur naturel pour différents types de dégradation. De plus, nous avons construit un ensemble de données avec des dégradations mixtes et des légendes synthétiques pour l'entraînement du DA-CLIP. Notre approche améliore les performances actuelles sur les tâches de restauration d'images \emph{spécifiques à la dégradation} et \emph{unifiées}, indiquant une direction prometteuse pour stimuler la restauration d'images avec des modèles de vision-langage préentraînés à grande échelle. Notre code est disponible à l'adresse suivante : https://github.com/Algolzw/daclip-uir.