Flux d'information hiérarchique pour la restauration d'images généralisée et efficace

Bien que les transformateurs visuels montrent un grand potentiel dans de nombreuses tâches de restauration d'images (IR), le défi reste de généraliser et d'échelonner efficacement un modèle pour plusieurs tâches IR. Pour trouver un équilibre entre l'efficacité et la capacité du modèle dans une méthode de restauration d'images basée sur les transformateurs, nous proposons un mécanisme de flux d'information hiérarchique, appelé Hi-IR, qui propage progressivement l'information entre les pixels selon une approche ascendante. Hi-IR construit un arbre d'information hiérarchique représentant l'image dégradée à trois niveaux. Chaque niveau encapsule des types différents d'information, avec les niveaux supérieurs englobant des objets et des concepts plus larges, tandis que les niveaux inférieurs se concentrent sur les détails locaux. De plus, l'architecture en arbre hiérarchique élimine l'auto-attention à longue portée, améliore l'efficacité computationnelle et l'utilisation de la mémoire, préparant ainsi le modèle à une échellation efficace. Sur cette base, nous explorons l'échellation du modèle pour améliorer les capacités de notre méthode, ce qui devrait avoir un impact positif sur la restauration d'images dans des contextes de formation à grande échelle. Des résultats expérimentaux exhaustifs montrent que Hi-IR atteint des performances de pointe dans sept tâches courantes de restauration d'images, confirmant son efficacité et sa généralisabilité.