AdaAttN : Réexamen du Mécanisme d'Attention dans le Transfert de Style Neural Arbitraire

Le transfert de style neuronal rapide et arbitraire a attiré une attention considérable des communautés académiques, industrielles et artistiques en raison de sa flexibilité permettant diverses applications. Les solutions existantes fusionnent soit attentivement les caractéristiques de style profondes dans les caractéristiques de contenu profondes sans tenir compte des distributions de caractéristiques, soit normalisent adaptativement les caractéristiques de contenu profondes selon le style afin que leurs statistiques globales soient alignées. Bien que ces approches soient efficaces, elles négligent les caractéristiques superficielles et n'abordent pas localement les statistiques de caractéristiques, ce qui peut entraîner des résultats non naturels avec des distorsions locales peu agréables. Pour atténuer ce problème, nous proposons dans cet article un nouveau module d'attention et de normalisation, appelé Normalisation d'Attention Adaptative (AdaAttN), qui effectue une normalisation attentive adaptative sur une base ponctuelle. Plus précisément, un score d'attention spatial est appris à partir des caractéristiques superficielles et profondes des images de contenu et de style. Ensuite, des statistiques pondérées par point sont calculées en considérant chaque point de caractéristique de style comme une distribution du résultat pondéré par l'attention de tous les points de caractéristique de style. Enfin, la caractéristique de contenu est normalisée afin qu'elle présente les mêmes statistiques locales que les statistiques pondérées par point calculées pour la caractéristique de style. De plus, une nouvelle perte locale basée sur AdaAttN est dérivée pour améliorer la qualité visuelle locale. Nous avons également étendu AdaAttN pour qu'il soit prêt à être utilisé pour le transfert de style vidéo avec quelques modifications mineures. Les expériences montrent que notre méthode atteint l'état de l'art en matière de transfert arbitraire d'image/vidéo. Le code source et les modèles sont disponibles.