HyperAIHyperAI
il y a 9 jours

Pontage des interactions contextuelles mondiales pour une complétion d’image haute fidélité

Chuanxia Zheng, Tat-Jen Cham, Jianfei Cai, Dinh Phung
Pontage des interactions contextuelles mondiales pour une complétion d’image haute fidélité
Résumé

La prise en compte correcte des interactions contextuelles globales est essentielle pour une complétion d’image de haute fidélité lorsqu’on utilise des masques de grande taille. Les méthodes précédentes tentant d’atteindre cet objectif à l’aide de convolutions profondes ou à grand champ réceptif (RF) ne parviennent pas à échapper à la domination des interactions locales, ce qui peut se révéler inférieur. Dans cet article, nous proposons de traiter la complétion d’image comme une tâche de prédiction séquence-à-séquence sans direction, et d’utiliser un transformateur pour capturer directement les dépendances à longue portée dans l’encodeur. De façon cruciale, nous introduisons un réseau de convolution restreint à petit champ réceptif non chevauchant pour la représentation pondérée des tokens, ce qui permet au transformateur de modéliser explicitement les relations entre les contextes visibles à longue portée avec une importance égale dans toutes les couches, sans confondre implicitement les tokens voisins, contrairement aux champs réceptifs plus grands. Pour améliorer la cohérence d’apparence entre les régions visibles et les régions générées, nous introduisons une nouvelle couche attentive (AAL) afin d’exploiter de manière plus efficace les caractéristiques de haute fréquence distantes. Dans l’ensemble, des expériences étendues démontrent une performance supérieure par rapport aux méthodes de pointe sur plusieurs jeux de données.