StyleNAT : Offrir à chaque tête une nouvelle perspective

La génération d’images a toujours été une tâche recherchée mais difficile, et réaliser cette tâche de manière efficace s’avère tout aussi complexe. De nombreux chercheurs tentent de concevoir un générateur « universel », dont les paramètres restent peu différents même pour des jeux de données très variés. Dans ce travail, nous présentons un nouveau cadre basé sur les transformateurs, baptisé StyleNAT, visant une génération d’images de haute qualité, tout en offrant une efficacité et une flexibilité supérieures. Au cœur de notre modèle se trouve un cadre soigneusement conçu qui partitionne les têtes d’attention afin de capturer à la fois des informations locales et globales, grâce à une mécanique dite d’attention de voisinage (Neighborhood Attention, NA). En permettant à différentes têtes d’attention de se concentrer sur des champs réceptifs variés, le modèle parvient à combiner de manière plus efficace ces informations et à s’adapter de manière hautement flexible aux données disponibles. StyleNAT atteint un nouveau record (SOTA) en score FID sur FFHQ-256 avec une valeur de 2,046, surpassant les modèles convolutifs précédents tels que StyleGAN-XL ainsi que les modèles basés sur les transformateurs comme HIT et StyleSwin. Il établit également un nouveau record SOTA pour les transformateurs sur FFHQ-1024, avec un score FID de 4,174. Ces résultats représentent une amélioration de 6,4 % sur les performances de FFHQ-256 par rapport à StyleGAN-XL, tout en réduisant de 28 % le nombre de paramètres et en améliorant de 56 % le débit d’échantillonnage. Le code source et les modèles seront rendus disponibles sur GitHub à l’adresse suivante : https://github.com/SHI-Labs/StyleNAT.