HyperAIHyperAI

Command Palette

Search for a command to run...

Contrôle des modèles vision-langage pour la restauration d'images multi-tâches

Ziwei Luo Fredrik K. Gustafsson Zheng Zhao Jens Sjölund Thomas B. Schön

Résumé

Les modèles de vision-langage tels que CLIP ont montré un impact considérable sur diverses tâches en aval pour des prédictions sans exemple ou sans étiquette. Cependant, lorsqu'il s'agit de la vision de bas niveau, comme la restauration d'images, leurs performances se détériorent considérablement en raison d'entrées corrompues. Dans cet article, nous présentons un modèle de vision-langage sensible à la dégradation (DA-CLIP) pour améliorer le transfert des modèles de vision-langage préentraînés vers des tâches de vision de bas niveau, dans le cadre d'un modèle multitâche pour la restauration d'images. Plus précisément, DA-CLIP entraîne un contrôleur supplémentaire qui adapte l'encodeur d'images fixe de CLIP afin de prédire des plongements (embeddings) de caractéristiques de haute qualité. En intégrant ces plongements dans un réseau de restauration d'images par le biais de l'attention croisée, nous sommes capables de guider le modèle à apprendre une reconstruction d'image fidèle. Le contrôleur lui-même produira également une caractéristique de dégradation qui correspond aux corruptions réelles de l'entrée, offrant ainsi un classificateur naturel pour différents types de dégradation. De plus, nous avons construit un ensemble de données avec des dégradations mixtes et des légendes synthétiques pour l'entraînement du DA-CLIP. Notre approche améliore les performances actuelles sur les tâches de restauration d'images \emph{spécifiques à la dégradation} et \emph{unifiées}, indiquant une direction prometteuse pour stimuler la restauration d'images avec des modèles de vision-langage préentraînés à grande échelle. Notre code est disponible à l'adresse suivante : https://github.com/Algolzw/daclip-uir.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp