17日前

StyleNAT：各ヘッドに新たな視点を提供する

Steven Walton, Ali Hassani, Xingqian Xu, Zhangyang Wang, Humphrey Shi

要約

画像生成は長年にわたり望まれてきたが、同時に困難なタスクであり、効率的な生成を実現することもまた容易ではない。多くの研究者は、パラメータ空間における差異が極めて小さいまま、多様なデータセットに適用可能な「万能型」生成器の構築を目指してきた。本研究では、高品質な画像生成を実現しつつ、優れた効率性と柔軟性を兼ね備えた、新たなTransformerベースのフレームワーク、StyleNATを提案する。本モデルの核となるのは、局所的およびグローバルな情報を効果的に捉えるための注意機構の設計であり、これにはNeighborhood Attention（NA）を用いたアテンションヘッドの分割が採用されている。異なるアテンションヘッドが異なる受容野に注目できるため、モデルは情報をより効果的に統合でき、データの特性に高度に柔軟に対応することが可能となる。StyleNATは、FFHQ-256データセットにおいてFIDスコア2.046という新たなSOTA（最良の結果）を達成し、従来の畳み込み型モデル（StyleGAN-XL）およびTransformerベースのモデル（HIT、StyleSwin）を上回った。さらに、FFHQ-1024ではTransformerモデルとして新たなSOTAを記録し、FIDスコア4.174を達成した。これらの結果は、StyleGAN-XLと比較してFFHQ-256において6.4％のスコア向上を実現しつつ、パラメータ数を28％削減し、サンプリングスループットを56％向上させたことを示している。コードおよびモデルは、https://github.com/SHI-Labs/StyleNAT にてオープンソース化される予定である。