vor 17 Tagen

StyleNAT: Jeder Head erhält eine neue Perspektive

Steven Walton, Ali Hassani, Xingqian Xu, Zhangyang Wang, Humphrey Shi

Abstract

Die Erzeugung von Bildern ist ein seit langem angestrebtes, jedoch herausforderndes Unterfangen, und die effiziente Durchführung dieser Aufgabe erweist sich ebenfalls als schwierig. Oft versuchen Forscher, einen „One-Size-Fits-All“-Generator zu entwickeln, bei dem sich die Parameter im Parameterraum für stark unterschiedliche Datensätze nur geringfügig unterscheiden. In dieser Arbeit präsentieren wir einen neuen, auf Transformers basierenden Ansatz namens StyleNAT, der auf die Erzeugung hochwertiger Bilder mit überlegener Effizienz und Flexibilität abzielt. Im Kern unseres Modells steht ein sorgfältig entworfener Rahmen, der die Aufmerksamkeitsköpfe in lokale und globale Informationsquellen aufteilt, wodurch die Neighborhood Attention (NA) ermöglicht wird. Durch die Fähigkeit verschiedener Köpfe, unterschiedliche Rezeptivfelder zu erfassen, kann das Modell diese Informationen besser kombinieren und sich auf sehr flexible Weise an die vorliegenden Daten anpassen. StyleNAT erreicht eine neue SOTA-FID-Score auf FFHQ-256 mit 2,046 und übertrifft dabei vorherige Ansätze, die auf Faltungsnetzwerken wie StyleGAN-XL sowie auf Transformers wie HIT und StyleSwin basieren. Zudem erzielt StyleNAT einen neuen SOTA-Transformer-Score auf FFHQ-1024 mit einem FID-Wert von 4,174. Im Vergleich zu StyleGAN-XL zeigt dieser Ansatz eine Verbesserung um 6,4 % bei FFHQ-256, bei einer Reduktion der Parameterzahl um 28 % und einer Verbesserung der Sampling-Durchsatzrate um 56 %. Der Quellcode und die Modelle werden unter https://github.com/SHI-Labs/StyleNAT öffentlich zugänglich gemacht.