HyperAIHyperAI
il y a 9 jours

Complétion d’image pluraliste de haute fidélité avec des Transformers

Ziyu Wan, Jingbo Zhang, Dongdong Chen, Jing Liao
Complétion d’image pluraliste de haute fidélité avec des Transformers
Résumé

La complétion d’image a connu des progrès considérables grâce aux réseaux de neurones convolutifs (CNN), en raison de leur puissante capacité à modéliser les textures. Toutefois, en raison de certaines propriétés intrinsèques (par exemple, les prioris inductifs locaux, les noyaux invariants spatialement), les CNN peinent à comprendre les structures globales ou à supporter naturellement une complétion pluraliste. Récemment, les transformateurs ont démontré leur efficacité dans la modélisation des relations à long terme et la génération de résultats diversifiés, mais leur complexité computationnelle est quadratique par rapport à la longueur d’entrée, ce qui limite leur application dans le traitement d’images à haute résolution. Ce papier combine les avantages des deux approches pour la complétion pluraliste d’images : la reconstruction de priori d’apparence par transformateur et le réapprovisionnement de textures par CNN. Le premier transformateur récupère des structures cohérentes pluralistes ainsi qu’une partie de textures grossières, tandis que le second CNN améliore les détails locaux de texture des prioris grossiers, guidés par les images masquées à haute résolution. La méthode proposée surpasse largement les approches de pointe sur trois aspects : 1) une amélioration significative de la fidélité des images, même par rapport aux méthodes déterministes ; 2) une meilleure diversité et une fidélité plus élevée pour la complétion pluraliste ; 3) une capacité exceptionnelle de généralisation sur des masques de grande taille et sur des jeux de données génériques, tels que ImageNet.

Complétion d’image pluraliste de haute fidélité avec des Transformers | Articles de recherche récents | HyperAI