Sur l'entraînement préalable efficace d'images basé sur les Transformers pour la vision de bas niveau

La pré-formation a permis d’atteindre de nombreux états de l’art dans le domaine de la vision par ordinateur hautement niveau, tandis que très peu d’efforts ont été consacrés à l’étude de l’impact de la pré-formation dans les systèmes de traitement d’images. Dans cet article, nous adaptons des régimes de pré-formation basés sur les transformateurs afin d’améliorer diverses tâches de bas niveau. Pour diagnostiquer de manière exhaustive l’influence de la pré-formation, nous proposons un ensemble complet d’outils d’évaluation fondés sur des principes rigoureux, permettant d’explorer ses effets sur les représentations internes. Nos observations révèlent que la pré-formation joue des rôles nettement différents selon les tâches de bas niveau : par exemple, elle introduit davantage d’information locale dans les couches supérieures lors de la super-résolution (SR), entraînant des gains significatifs, tandis qu’elle a très peu d’effet sur les représentations internes du bruit, conduisant à des améliorations limitées. En outre, nous explorons différentes méthodes de pré-formation, montrant que la pré-formation multi-tâches corrélées s’avère plus efficace et plus efficace en termes de données que les autres approches. Enfin, nous étendons notre étude à différentes échelles de données, à différentes tailles de modèles, ainsi qu’à des comparaisons entre architectures basées sur les transformateurs et celles basées sur les réseaux de neurones convolutifs (CNN). À partir de ces analyses, nous parvenons à concevoir des modèles de pointe pour plusieurs tâches de bas niveau. Le code source est disponible à l’adresse suivante : https://github.com/fenglinglwb/EDT.