Dépasser la limite de fenêtre locale : Transformateur de super-résolution avancé avec un dictionnaire adaptatif de tokens

La super-résolution d’image unique est un problème classique de vision par ordinateur consistant à estimer des images à haute résolution (HR) à partir de leurs contreparties à basse résolution (LR). Bien que les réseaux neuronaux profonds (DNN), et plus particulièrement les Transformers appliqués à la super-résolution, aient connu des progrès significatifs ces dernières années, des défis subsistent encore, notamment celui du champ de réception limité induit par l’attention auto-orientée basée sur fenêtres. Pour relever ces difficultés, nous introduisons une série de dictionnaires de jetons adaptatifs auxiliaires dans le cadre du Transformer de super-résolution, et proposons une méthode baptisée ATD-SR. Le dictionnaire de jetons introduit permet d’apprendre des informations a priori à partir des données d’entraînement, puis d’adapter ces informations apprises à une image de test spécifique grâce à une étape de raffinement adaptatif. Cette stratégie de raffinement fournit non seulement des informations globales à tous les jetons d’entrée, mais permet également de regrouper les jetons d’image en catégories. À partir de ces partitions catégorielles, nous proposons par la suite un mécanisme d’attention auto-orientée basé sur les catégories, conçu pour exploiter des jetons éloignés mais similaires afin d’améliorer les caractéristiques d’entrée. Les résultats expérimentaux démontrent que notre méthode atteint les meilleurs performances sur diverses benchmarks de super-résolution d’image unique.