HyperAIHyperAI
il y a 3 mois

Sur l'entraînement préalable efficace d'images basé sur les Transformers pour la vision de bas niveau

Wenbo Li, Xin Lu, Shengju Qian, Jiangbo Lu, Xiangyu Zhang, Jiaya Jia
Sur l'entraînement préalable efficace d'images basé sur les Transformers pour la vision de bas niveau
Résumé

La pré-formation a permis d’atteindre de nombreux états de l’art dans le domaine de la vision par ordinateur hautement niveau, tandis que très peu d’efforts ont été consacrés à l’étude de l’impact de la pré-formation dans les systèmes de traitement d’images. Dans cet article, nous adaptons des régimes de pré-formation basés sur les transformateurs afin d’améliorer diverses tâches de bas niveau. Pour diagnostiquer de manière exhaustive l’influence de la pré-formation, nous proposons un ensemble complet d’outils d’évaluation fondés sur des principes rigoureux, permettant d’explorer ses effets sur les représentations internes. Nos observations révèlent que la pré-formation joue des rôles nettement différents selon les tâches de bas niveau : par exemple, elle introduit davantage d’information locale dans les couches supérieures lors de la super-résolution (SR), entraînant des gains significatifs, tandis qu’elle a très peu d’effet sur les représentations internes du bruit, conduisant à des améliorations limitées. En outre, nous explorons différentes méthodes de pré-formation, montrant que la pré-formation multi-tâches corrélées s’avère plus efficace et plus efficace en termes de données que les autres approches. Enfin, nous étendons notre étude à différentes échelles de données, à différentes tailles de modèles, ainsi qu’à des comparaisons entre architectures basées sur les transformateurs et celles basées sur les réseaux de neurones convolutifs (CNN). À partir de ces analyses, nous parvenons à concevoir des modèles de pointe pour plusieurs tâches de bas niveau. Le code source est disponible à l’adresse suivante : https://github.com/fenglinglwb/EDT.